免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 8259 | 回复: 2
打印 上一主题 下一主题

利用python 向百度发送搜索请求,并抽取搜索结果 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-03-17 00:47 |只看该作者 |倒序浏览
本帖最后由 Tinylamb 于 2012-03-17 00:50 编辑

出于工作的需要,需要从百度的搜索结果页抓取大量内容。

想到python做这种机械工作很方便,就写了一段代码

  1. def search(key):
  2.         import urllib2
  3.         from BeautifulSoup import BeautifulSoup
  4.         #observe the pattern of search url
  5.         search_url='http://www.baidu.com/s?wd=key&rsv_bp=0&rsv_spt=3&rsv_n=2&inputT=6391'
  6.         # search your keyword
  7.         req=urllib2.urlopen(search_url.replace('key',key))
  8.         result=[]  #store result
  9.         for count in range(10):#search for 10 pages
  10.                 html=req.read()
  11.                 soup=BeautifulSoup(html)
  12.                 result+=[i.string for i in soup('a',{'onmousedown':True})]
  13.                 next_page='http:www.baidu.com/'+soup('a',{'href':True,'class':'n'})[0]['href'] # search for the next page
  14.                 req=urllib2.urlopen(next_page)
  15.         f=open(r'result.txt','w')
  16.         for i in result:
  17.                 f.write(i+'\n')
  18.         f.close()
  19. if __name__=='__main__':
  20.         key=raw_input('input key word:')
  21.         search(key)
复制代码
但是运行的时候,报错一个问题。提示no host given.
  1. req=urllib2.urlopen(next_page)
复制代码
我的问题是:打开的是标准的url,怎么会提示缺少host?
另外,我补充代码

  1. header='www.baidu.com'
  2. req=urllib2.urlopen(next_page,header)
复制代码
仍然行不通。

请大家说说解决方案。

论坛徽章:
0
2 [报告]
发表于 2012-03-17 12:11 |只看该作者
第13行的“http:www.baidu.com/”应为“http://www.baidu.com/

论坛徽章:
0
3 [报告]
发表于 2012-03-19 11:45 |只看该作者
回复 2# mozillazg


    THX.what a fucking error!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP