免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 7111 | 回复: 33
打印 上一主题 下一主题

perl整站采集有什么好的方案? [复制链接]

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-05-21 14:27 |只看该作者 |倒序浏览
象scrapy那样的

论坛徽章:
3
CU十二周年纪念徽章
日期:2013-10-24 15:41:34子鼠
日期:2013-12-14 14:57:19射手座
日期:2014-04-25 21:23:23
2 [报告]
发表于 2013-05-21 18:49 |只看该作者
re抓取?{:3_186:}

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
3 [报告]
发表于 2013-05-21 20:06 |只看该作者
yakczh_cu 发表于 2013-05-21 10:27
象scrapy那样的

what's scrapy ?

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
4 [报告]
发表于 2013-05-21 21:00 |只看该作者
http://www.kuqin.com/system-analysis/20110906/264417.html
类似这种的,配置站点后,填好抓取规则代码和抓取结果处理器就行了

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
5 [报告]
发表于 2013-05-21 21:41 |只看该作者
抓取 ....
处理队列
处理链接...

取得item页
 $func=include("页面采集函数/脚本")
$result= call($func)

得到采集结果
 $func=include("存贮结果函数/脚本")
 call($func)
保存结果
 处理队列中下一个url


用perl如何实现这样的结构?

论坛徽章:
0
6 [报告]
发表于 2013-05-22 09:59 |只看该作者
回复 5# yakczh_cu

简单的回答,“Perl没有像python的scrapy这样的产品”
scrapy其实就是个规整过的爬虫而已,Perl能干这种事,而且一定比scrapy做的好。所谓“好”,就是资源占用更少,效率更高
非要用Perl做,学习成本比较高。你可以去看看Coro和AnyEvent
   

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
7 [报告]
发表于 2013-05-22 10:35 |只看该作者
类似的

Scrappy - The All Powerful Web Spidering, Scraping, Creeping Crawling Framework

http://search.cpan.org/~awncorp/Scrappy-0.94112090/lib/Scrappy.pm

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
8 [报告]
发表于 2013-05-22 16:27 |只看该作者

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
9 [报告]
发表于 2013-05-22 22:54 |只看该作者
flw 发表于 2013-05-22 16:27
http://search.cpan.org/~miyagawa ... /lib/Web/Scraper.pm

慢慢爽去吧!

Web::Scraper主要是HTML分析并提取信息。楼主是要一个通过简单设置就可以完成复杂任务的“爬虫机器”。perl没有现成的这样的东西。
这种爬虫机器定制的多,自己阴着用。发布出来的都是垃圾。

论坛徽章:
0
10 [报告]
发表于 2013-05-23 13:22 |只看该作者
回复 9# py


    附和。爬虫都比较有针对性,普适的少,普适的都是大牛。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP