免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: xingzhou823
打印 上一主题 下一主题

利用perl提取google网页搜索结果中的内容 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2012-08-31 15:27 |只看该作者
回复 9# py

俺不是要做坏事啊,
就像你说的,
要想做坏事,
得有做坏事的本领。




   

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
12 [报告]
发表于 2012-08-31 15:43 |只看该作者
回复 10# xingzhou823


    你确信吗
http://scholar.google.com.hk/sch ... =zh-CN&as_sdt=1,5&as_vis=1
http://scholar.google.com.hk/sch ... =zh-CN&as_sdt=1,5&as_vis=1
http://scholar.google.com.hk/sch ... =zh-CN&as_sdt=1,5&as_vis=1
你在浏览器里面分别输入这三个url,出来的不就是你要的前三页吗?

用lwp取的时候,有可能要设置一下agent信息

论坛徽章:
0
13 [报告]
发表于 2012-08-31 15:51 |只看该作者
回复 12# laputa73

我确定呢。
虽然直接输入 url在浏览器,可以看到想要的。
可是用perl就得不到任何结果,

“用lwp取的时候,有可能要设置一下agent信息”
这个我真是不知道该怎么设置呢



   

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
14 [报告]
发表于 2012-08-31 17:35 |只看该作者
建议你看看lwp的doc
也可以参考
http://hi.baidu.com/bit_xiaofeng/item/48d6c0b90d1526a4eaba93cd
很多网站会判断http请求的agent,判断客户端浏览器类型,过滤一些简单的爬虫。
你可以用抓包程序看看你程序和浏览器的包头有何不同。
前面也有类似的帖子。
你要是实在搞不定。就用perl调用curl或wget去抓成文件再分析。

论坛徽章:
0
15 [报告]
发表于 2012-12-26 16:34 |只看该作者
想问问lz现在这个做的怎么样了

其实有人做了这个:http://goohackle.com/tools/google-parser/

先用perl做成了,然后用php做的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP