免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: yakczh_cu
打印 上一主题 下一主题

perl整站采集有什么好的方案? [复制链接]

论坛徽章:
1
辰龙
日期:2014-05-15 19:37:15
21 [报告]
发表于 2013-05-26 08:42 |只看该作者
回复 17# yakczh_cu
Bloom::Filter 这个模块会记录你所有采集过的 url

   

论坛徽章:
3
未羊
日期:2013-11-18 15:17:06酉鸡
日期:2013-12-06 17:07:16天蝎座
日期:2014-06-11 12:37:07
22 [报告]
发表于 2013-05-29 15:08 |只看该作者
回复 12# grshrd49


    我看到你这程序还是有点不太理解。。
    就好比你整站抓取的话,该怎么个抓法?这个貌似有点像抓一个页面里面的所有链接。

论坛徽章:
3
未羊
日期:2013-11-18 15:17:06酉鸡
日期:2013-12-06 17:07:16天蝎座
日期:2014-06-11 12:37:07
23 [报告]
发表于 2013-05-29 17:34 |只看该作者
回复 9# py


    如果要拔下整站,这玩意靠谱不?
   
    例如一级页面到二级页面的抓取。。。

论坛徽章:
3
摩羯座
日期:2013-09-04 12:01:36申猴
日期:2013-10-23 12:12:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34
24 [报告]
发表于 2013-05-29 18:12 |只看该作者
回复 22# 墨迹哥


对头!就是这个意思。
讲究一点的可以先登录后再去爬网站,通过url寻找自己需要的东西

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
25 [报告]
发表于 2013-05-30 07:46 |只看该作者
回复 23# 墨迹哥

Web::Scraper只是分析一个页面并提取信息的模块,你给他一段HTML,给出XPATH,它给你你要的信息
Perl没有爬整站的模块
   

论坛徽章:
0
26 [报告]
发表于 2013-05-30 10:39 |只看该作者
就用你说的py的那个行了吧…………

论坛徽章:
1
辰龙
日期:2014-05-15 19:37:15
27 [报告]
发表于 2013-05-30 11:29 |只看该作者
本帖最后由 iakuf 于 2013-05-30 11:39 编辑

回复 25# py

其实吧,CPAN 上还真有好几个项目抓整站。。。。
比如:http://search.cpan.org/~dmaki/Gungho-0.09008/lib/Gungho.pm

   

论坛徽章:
3
未羊
日期:2013-11-18 15:17:06酉鸡
日期:2013-12-06 17:07:16天蝎座
日期:2014-06-11 12:37:07
28 [报告]
发表于 2013-05-30 12:51 |只看该作者
回复 25# py


    其实我更加关注的是抓链接,就是目前有没有一些模块能够把网站所有的链接都抓下来?
    例如一级页面,二级页面,三级页面 这样顺着抓?
    我在做一个有关爬虫的小工具,希望您能多指导。。

论坛徽章:
3
未羊
日期:2013-11-18 15:17:06酉鸡
日期:2013-12-06 17:07:16天蝎座
日期:2014-06-11 12:37:07
29 [报告]
发表于 2013-05-30 12:52 |只看该作者
回复 27# iakuf


    有实际的使用例子不?。。上面貌似也木有。。

论坛徽章:
3
未羊
日期:2013-11-18 15:17:06酉鸡
日期:2013-12-06 17:07:16天蝎座
日期:2014-06-11 12:37:07
30 [报告]
发表于 2013-05-30 12:53 |只看该作者
回复 24# grshrd49


    能丢个QQ单独讨论下吗?或者站内消息?
    我目前还在研究这个爬虫的东西,我的目标只是抓链接。。并不是抓别的。。
    很好奇。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP