免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7364 | 回复: 12
打印 上一主题 下一主题

python爬虫之采集_采集搜索引擎联想词视频 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-27 20:25 |只看该作者 |倒序浏览
python培训_python爬虫之采集
http://you.video.sina.com.cn/b/113293169-1631501663.html
采集搜索引擎联想词。

论坛徽章:
1
摩羯座
日期:2014-04-06 10:30:51
2 [报告]
发表于 2013-08-27 23:26 |只看该作者
这么点东西也能搞出个视频来。。服了。。

FIDDLER2抓包找到URL和参数,几十行代码就搞定了。

论坛徽章:
1
摩羯座
日期:2014-04-06 10:30:51
3 [报告]
发表于 2013-08-27 23:35 |只看该作者
视频没有耐心看完,如果“联想词”这个词没有用错的话,应该是指输入联想。
采集输入联想不如采集相关搜索。
举个例子,在so.com里输入nginx
提示词如下
suggest_so({q:"nginx",p:true,s:["nginx 配置","nginx 安装","nginx 重启","nginx tomcat","nginx php","nginx rewrite","nginx windows","nginx下载","nginx apache","nginx 启动"]});
注意,只能是nginx开头的。
相关搜索如下
nginx 配置                welcome to nginx                nginx 安装                nginx tomcat                nginx php       
nginx 重启                nginx rewrite                nginx windows                nginx/1.0.15                nginx 下载       

简单的说,利用输入联想和相关搜索采集到的长尾词数量,会相差N个数量级。

论坛徽章:
1
摩羯座
日期:2014-04-06 10:30:51
4 [报告]
发表于 2013-08-27 23:37 |只看该作者
留张图吧,自己写的根据关键词自动采集系统。

论坛徽章:
1
摩羯座
日期:2014-04-06 10:30:51
5 [报告]
发表于 2013-08-27 23:46 |只看该作者
再补充下三楼
采集输入联想一般不会被封,因为正常的使用情况下请求频率也是非常高的,
采集搜索联想会被封,我自己是用tor解决的,唯一的遗憾是tor网络不能访问GOOGLE。

论坛徽章:
0
6 [报告]
发表于 2013-08-28 14:46 |只看该作者
楼上的兄弟,意见很好!

你是会啊!

有零基础的,不会,这个是适合他们看的。。
抓相关搜索下面的关键词,思路都是一样的。

论坛徽章:
0
7 [报告]
发表于 2013-08-28 14:51 |只看该作者
本帖最后由 xxjjuu796 于 2013-08-28 14:52 编辑

不讲清楚,直接上代码,初学者搞不清楚。
这个视频,从用哪个模块,到拦截http,模拟get,代理访问都有详细讲解,代码才几十行。

论坛徽章:
0
8 [报告]
发表于 2013-08-31 15:58 |只看该作者
本帖最后由 slxfisme 于 2013-08-31 15:59 编辑

搜索结果的中文有乱码,但只有一部分是乱码,如“官网”就是乱码,“电子书”就不是乱码,怎么解决
用的是UTF-8
还有楼主你的视频有些好像打不开了

论坛徽章:
0
9 [报告]
发表于 2013-09-03 05:44 |只看该作者
楼上的,可以观看啊!可以打开。

搜索结果的中文有乱码,但只有一部分是乱码,如“官网”就是乱码,“电子书”就不是乱码,怎么解决
用的是UTF-8

请说明白一些,你搜那个搜索引擎,最好贴出你的代码。

论坛徽章:
0
10 [报告]
发表于 2013-09-03 19:49 |只看该作者
回复 9# xxjjuu796

嗯,视频能看了。
    我就是搜的www.so.com的,具体代码如下
#coding:UTF-8

import urllib
import urllib2
import re
leter=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for item in leter:
   rgjc=item
   gjc=urllib.quote(rgjc)
   url="http://sug.so.360.cn/suggest/word?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word="+gjc
   headers={
   
    'GET':url,
    'Host':'sug.so.360.cn',
    'Referer':'http://www.so.com/'
   
       }

   req=urllib2.Request(url)
   for key in headers:
       req.add_header(key,headers[key])

   html=urllib2.urlopen(req).read()

   ss=re.findall("\"(.*?)\"",html)
   print ss[1]

结果如下,发现部分中文是乱码:
angelababy
bigbang
cf瀹樼綉
dnf
exo
fx缁勫悎
google
hao123
itunes
jd
kfc
lol
mx3
nba
office2007免费版下载
pps
qq绌洪棿
running man
so.com
two weeks
u9
v神驾到
wow
xp绯荤粺涓嬭浇
yy语音官方下载
z级一班3
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP