免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › Perl爬虫，爬整站研究

1 2 3 4 567 8 9 / 9 页下一页

最近访问板块

发新帖

楼主: 墨迹哥

上一主题

下一主题

Perl爬虫，爬整站研究 [复制链接]

论坛徽章:: 3

未羊
日期:2013-11-18 15:17:06

酉鸡
日期:2013-12-06 17:07:16

天蝎座
日期:2014-06-11 12:37:07

51楼 [报告]

发表于 2013-07-09 14:27 |只看该作者

我发现这个帖子烂产了。。。到最后都没有好的解决方案！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

摩羯座
日期:2013-09-04 12:01:36

申猴
日期:2013-10-23 12:12:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

52楼 [报告]

发表于 2013-07-09 16:45 |只看该作者

本帖最后由 grshrd49 于 2013-07-09 16:49 编辑

试试这个，哈哈！测试用了2天！爬hao123用了基本2天...
$rooturl最后不要/结尾，$base_url这个可以确保不要爬到外面去
(jpg|png|exe|rar|zip|bmp|apk)$/i)这些结尾的连接就不再深度查找
控制了302页面重定向的深度
如果遇到实在无法理解的非法页面，加到@exclude = ();数组中发现了就不再请求

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

摩羯座
日期:2013-09-04 12:01:36

申猴
日期:2013-10-23 12:12:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

53楼 [报告]

发表于 2013-07-09 16:55 |只看该作者

我发的帖子呢，这个是不是cu论坛的bug啊翻页发帖的第一帖就看不到了一定要再发一贴才能看到？
我已经不止一次遇到这问题了啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 42

19周年集字徽章-周
日期:2019-10-14 14:35:31

平安夜徽章
日期:2015-12-26 00:06:30

数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00

2015亚冠之首尔
日期:2015-11-04 22:25:43

IT运维版块每日发帖之星
日期:2015-08-17 06:20:00

寅虎
日期:2014-06-04 16:25:27

狮子座
日期:2014-05-12 11:00:00

辰龙
日期:2013-12-20 17:07:19

射手座
日期:2013-10-24 21:01:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

IT运维版块每日发帖之星
日期:2016-01-27 06:20:00

15-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01

54楼 [报告]

发表于 2013-07-09 18:02 |只看该作者

现在动态网站很多,象hao123这么好爬的网站不多.
很多链接都是藏在js里面的,尤其是一些视频游戏网站
一般的爬虫是找不全的.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

摩羯座
日期:2013-09-04 12:01:36

申猴
日期:2013-10-23 12:12:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

55楼 [报告]

发表于 2013-07-09 20:18 |只看该作者

回复 54# laputa73

哪有一个工具可以一劳永逸的佑!?都不是按照自己的需求定制的嘛!你看qtp和lr这样强大的商业工具还不是万能的呢
我这个爬虫可以对一些企业的官网或者平台网站做功能性的功能性的回归测试, 特别是页面上的链接是否都是正确的. 结果还不错呢!嘿嘿

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

未羊
日期:2013-11-18 15:17:06

酉鸡
日期:2013-12-06 17:07:16

天蝎座
日期:2014-06-11 12:37:07

56楼 [报告]

发表于 2013-07-10 09:39 |只看该作者

回复 53# grshrd49

我觉得CU好像只显示最新的一个评论。。。。

你写这个通用爬虫？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

未羊
日期:2013-11-18 15:17:06

酉鸡
日期:2013-12-06 17:07:16

天蝎座
日期:2014-06-11 12:37:07

57楼 [报告]

发表于 2013-07-10 09:40 |只看该作者

回复 54# laputa73

额..我觉得把。JS的那些基本上都忽略就好。。。

目的知识把URL爬下来，然后做一些处理而已啊。。。

   主要是1级二级三级的页面，不知道怎么实现抓。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

未羊
日期:2013-11-18 15:17:06

酉鸡
日期:2013-12-06 17:07:16

天蝎座
日期:2014-06-11 12:37:07

58楼 [报告]

发表于 2013-07-10 09:43 |只看该作者

回复 54# laputa73

我主要有个问题想请教你的是，队列这个模块你有研究吗？。。

我不太懂这个线程队列。。希望能指点下。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

摩羯座
日期:2013-09-04 12:01:36

申猴
日期:2013-10-23 12:12:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

59楼 [报告]

发表于 2013-07-10 09:57 |只看该作者

本帖最后由 grshrd49 于 2013-07-10 09:58 编辑

回复 56# 墨迹哥

通不通用哈哈！这个就不知道拉，反正一般的中小站基本通吃
大站的话要爬上一两天，特别是有论坛的这样的网站，我后面再考虑用多线程来加快爬行速度

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

未羊
日期:2013-11-18 15:17:06

酉鸡
日期:2013-12-06 17:07:16

天蝎座
日期:2014-06-11 12:37:07

60楼 [报告]

发表于 2013-07-10 10:01 |只看该作者

回复 59# grshrd49

我测了下，挺稳定的。。还在看程序原理。。

主要有一个好不理解!$base_url..

还在看。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 4 567 8 9 / 9 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › Perl爬虫，爬整站研究

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP