免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9524 | 回复: 10
打印 上一主题 下一主题

py爬虫基础问题请教 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-21 22:15 |只看该作者 |倒序浏览
怎么按 “零基础写py爬虫” http://www.2cto.com/kf/201210/159597.html
这个操作会报这个错呢?

>>> import urllib2
>>> request = urllib2.Request(url="www.baidu.com")
>>> result = urllib2.urlopen(request).read()

Traceback (most recent call last):
  File "<pyshell#9>", line 1, in <module>
    result = urllib2.urlopen(request).read()
  File "C:\Python27\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "C:\Python27\lib\urllib2.py", line 396, in open
    protocol = req.get_type()
  File "C:\Python27\lib\urllib2.py", line 258, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: www.baidu.com
>>> request = urllib2.Request(url="http://www.baidu.com")
>>> result = urllib2.urlopen(request).read()

Traceback (most recent call last):
  File "<pyshell#11>", line 1, in <module>
    result = urllib2.urlopen(request).read()
  File "C:\Python27\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "C:\Python27\lib\urllib2.py", line 404, in open
    response = self._open(req, data)
  File "C:\Python27\lib\urllib2.py", line 422, in _open
    '_open', req)
  File "C:\Python27\lib\urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "C:\Python27\lib\urllib2.py", line 1214, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "C:\Python27\lib\urllib2.py", line 1184, in do_open
    raise URLError(err)
URLError: <urlopen error [Errno 10061] >

请高手支招,这个跟网络有关系吗,我打开百度没问题啊

论坛徽章:
0
2 [报告]
发表于 2014-09-21 22:34 |只看该作者
看了下我的网络设置,居然开了一个代理,不可思议,唉
下面这个在公司环境下应该有用,公司是得经过代理上网的
http://stackoverflow.com/questio ... n-http-proxy-python

论坛徽章:
0
3 [报告]
发表于 2014-09-21 22:37 |只看该作者
这个例子也有用:

from urllib import urlopen
from time import ctime
ticks = ('YHOO','EBAY','AMZN')

import csv
URL = 'http://quote.yahoo.com/d/quotes.csv?s=%s&f=sl1c1p2'

print '\nRrices qouted as of:',ctime()
print '\nticker'.ljust(9),'PRICE'.ljust(,'CHG'.ljust(5),'%AGE'
print '----'.ljust(,'----'.ljust(,'----'.ljust(5),'----'
u = urlopen('http://quote.yahoo.com/d/quotes.csv?s=GOOG,EBAY&f=sl1c1p2')

for row in u:
      tick,price,chg,per=row.split(',')
      print eval(tick).ljust(7), \
            ('%.2f' % round(float(price),2)).rjust(7), \
            chg.rjust(6),eval(per.rstrip()).rjust(6)
u.close()


"""
u = urlopen(URL % ','.join(ticks))
for row in csv.DictReader(u):
      print row
f.close()

import csv
u = urlopen ('http://download.finance.yahoo.com/d/quotes.csv?s=GOOG&f=sl1d1t1c1ohgv')
for row in u:
      print row
%s %s % 'abc' 'cde'
round(float(price),2))


"""

论坛徽章:
0
4 [报告]
发表于 2014-09-22 11:56 |只看该作者
http://blog.sina.com.cn/s/blog_7ed3ed3d010146tl.html
这个不错
在公司代理环境 也可以得到stock数据

论坛徽章:
0
5 [报告]
发表于 2014-09-22 12:06 |只看该作者
本帖最后由 smalltom30 于 2014-09-22 12:06 编辑

中文问题及noteapp编辑问题:http://www.cnblogs.com/rollenholt/archive/2011/08/01/2123889.html

论坛徽章:
0
6 [报告]
发表于 2014-09-22 15:30 |只看该作者
http://jingyan.baidu.com/article/a3aad71aac81e0b1fa009677.html  
Excel批量自动删除空白行超简单方法

论坛徽章:
0
7 [报告]
发表于 2014-09-22 16:29 |只看该作者
print '----'.ljust(,'----'.ljust(,'----'.ljust(5),'----'

论坛徽章:
0
8 [报告]
发表于 2014-09-22 16:30 |只看该作者
笑脸其实上是表示 8)

论坛徽章:
4
狮子座
日期:2014-04-17 10:45:47双鱼座
日期:2014-08-21 17:16:41处女座
日期:2014-08-26 13:46:46水瓶座
日期:2014-10-28 14:08:50
9 [报告]
发表于 2014-09-22 22:46 |只看该作者
url="http://www.baidu.com"

论坛徽章:
0
10 [报告]
发表于 2014-09-23 15:42 |只看该作者
http://www.jb51.net/article/44070.htm
python paramiko实现ssh远程访问的方法,讲解得比较到位
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP