免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › perl整站采集有什么好的方案？

12 3 4 / 4 页下一页

最近访问板块

发新帖

查看: 7111 | 回复: 33

上一主题

下一主题

perl整站采集有什么好的方案？ [复制链接]

论坛徽章:: 1

操作系统版块每日发帖之星
日期:2016-06-12 06:20:00

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2013-05-21 14:27 |只看该作者 |倒序浏览

象scrapy那样的

文库|博客

论坛徽章:: 3

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

子鼠
日期:2013-12-14 14:57:19

射手座
日期:2014-04-25 21:23:23

2楼 [报告]

发表于 2013-05-21 18:49 |只看该作者

re抓取？{:3_186:}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 7

戌狗
日期:2013-12-15 20:43:38

技术图书徽章
日期:2014-03-05 01:33:12

技术图书徽章
日期:2014-03-15 20:31:17

未羊
日期:2014-03-25 23:48:20

丑牛
日期:2014-04-07 22:37:44

巳蛇
日期:2014-04-11 21:58:09

15-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13

3楼 [报告]

发表于 2013-05-21 20:06 |只看该作者

yakczh_cu 发表于 2013-05-21 10:27
象scrapy那样的

what's scrapy ?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

操作系统版块每日发帖之星
日期:2016-06-12 06:20:00

4楼 [报告]

发表于 2013-05-21 21:00 |只看该作者

http://www.kuqin.com/system-analysis/20110906/264417.html
类似这种的，配置站点后，填好抓取规则代码和抓取结果处理器就行了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

操作系统版块每日发帖之星
日期:2016-06-12 06:20:00

5楼 [报告]

发表于 2013-05-21 21:41 |只看该作者

抓取　．．．．
处理队列
处理链接．．．

取得item页
　$func=include("页面采集函数／脚本")
$result= call($func)

得到采集结果
　$func=include("存贮结果函数／脚本")
　call($func)
保存结果
　处理队列中下一个url

用perl如何实现这样的结构？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2013-05-22 09:59 |只看该作者

回复 5# yakczh_cu

简单的回答，“Perl没有像python的scrapy这样的产品”
scrapy其实就是个规整过的爬虫而已，Perl能干这种事，而且一定比scrapy做的好。所谓“好”，就是资源占用更少，效率更高
非要用Perl做，学习成本比较高。你可以去看看Coro和AnyEvent

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 7

戌狗
日期:2013-12-15 20:43:38

技术图书徽章
日期:2014-03-05 01:33:12

技术图书徽章
日期:2014-03-15 20:31:17

未羊
日期:2014-03-25 23:48:20

丑牛
日期:2014-04-07 22:37:44

巳蛇
日期:2014-04-11 21:58:09

15-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13

7楼 [报告]

发表于 2013-05-22 10:35 |只看该作者

类似的

Scrappy - The All Powerful Web Spidering, Scraping, Creeping Crawling Framework

http://search.cpan.org/~awncorp/Scrappy-0.94112090/lib/Scrappy.pm

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

2015年辞旧岁徽章
日期:2015-03-03 16:54:15

8楼 [报告]

发表于 2013-05-22 16:27 |只看该作者

http://search.cpan.org/~miyagawa ... /lib/Web/Scraper.pm

慢慢爽去吧！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

py

论坛徽章:: 1

2015年辞旧岁徽章
日期:2015-03-03 16:54:15

9楼 [报告]

发表于 2013-05-22 22:54 |只看该作者

flw 发表于 2013-05-22 16:27
http://search.cpan.org/~miyagawa ... /lib/Web/Scraper.pm

慢慢爽去吧！

Web::Scraper主要是HTML分析并提取信息。楼主是要一个通过简单设置就可以完成复杂任务的“爬虫机器”。perl没有现成的这样的东西。
这种爬虫机器定制的多，自己阴着用。发布出来的都是垃圾。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

10楼 [报告]

发表于 2013-05-23 13:22 |只看该作者

回复 9# py

附和。爬虫都比较有针对性，普适的少，普适的都是大牛。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 / 4 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › perl整站采集有什么好的方案？

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP