1 2 3 4 5 6 789 / 9 页下一页

Perl爬虫，爬整站研究 [复制链接]

墨迹哥

富足长乐

论坛徽章:: 3

71楼 [报告]

发表于 2013-07-10 12:52 |只看该作者

回复 69# laputa73

对的，我没有理解透，那天自己研究了一晚上，也没理解出来。。

感觉好像有点偏差，这几天修复完代码我就开始细的测试，看看到底是什么地方没理解。

目前大概知道的情况是，use threads; use threads::shared;这两个包我已经理解了。

这个use Thread::Semaphore;信号量的我也知道怎么回事了。

目前就use Bloom::Filter;还有这个use Thread:

ueue; 理解有点吃力。

不知道有没有什么好多的方法？还真想请教下。劳烦你点播下。谢谢啦

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

墨迹哥

富足长乐

论坛徽章:: 3

72楼 [报告]

发表于 2013-07-10 12:54 |只看该作者

回复 68# grshrd49

不需要过度的去做太多的东西，只需要能够爬出就好。

   因为测试的话，主要测的是漏洞。后续会把样本和规则放在INI配置里面，用于测试使用。

   现在主要的问题就是爬虫了。能把页面的URL全部爬下来，那就基本上没有太大的问题。

   主要问题还是在不同深度上。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

墨迹哥

富足长乐

论坛徽章:: 3

73楼 [报告]

发表于 2013-07-10 12:56 |只看该作者

回复 68# grshrd49

我觉得把，还是优化基础功能先，别琢磨别的了。

基础功能实现以后才能扩展，一步一脚印的走比较好。你觉得呢。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

grshrd49

小富即安

论坛徽章:: 3

74楼 [报告]

发表于 2013-07-10 13:12 |只看该作者

本帖最后由 grshrd49 于 2013-07-10 13:14 编辑

回复 73# 墨迹哥

是这样的！如果一个功能都无法正常的运行，谈什么优化呢
我刚刚改了我的脚本 findpageurl 这个函数我把发现的相对路径的url的处理方法加了个判断

###################################
#请求url从返回页面中获取有用的url
###################################
sub findpageurl{
my ($rooturl,$url,$base_url,$a) = @_;
my @exclude = @$a;
my $UA = LWP::UserAgent->new();
$UA->max_redirect(1); #控制重定向深度
my $req = HTTP::Request->new( GET => "$url" );
my $resp = $UA->request($req);
#$UA->timeout(10);
my @page;
my @hrefurl;
my @srcurl;
my $return_code;
my $tempurl;
#链接不是200返回错误代码
$return_code = $resp->code;
print "requset return code:$return_code\n";
return $return_code unless ($return_code == 200);
@page = split /\n/,$resp->content;
for(@page){
if(s/href="(.+?)"//g){
#print "$1\n";
$tempurl = $1;
#这里改了.判断非http开头的相对路径地址，组装上根域名，如果不是/开头的再加上组装上/
unless($tempurl =~ /^http/){
if($tempurl =~ /^\//){
$tempurl = $rooturl . $tempurl;
}else{
$tempurl = $rooturl ."\/". $tempurl;
}
}
next if (map {$tempurl=~/$_/i} @exclude);
substr($tempurl,-1) =~ s/\///; #移除url最后的 /
push @hrefurl,$tempurl;
}
push @srcurl,$1 if(/src="(.*?)"/g);
}
print "requset return url\n";
return @hrefurl;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

laputa73

巨富豪门

论坛徽章:: 42

75楼 [报告]

发表于 2013-07-10 13:39 |只看该作者

本帖最后由 laputa73 于 2013-07-10 13:44 编辑

queue从字面看就是队列,fifo,你的分析程序往队列里面放,爬虫程序从队列里面拿目标.
至于bloom::filter,那就是个高效的过滤器,仙子和iakuf的帖子有详细解释
其实就是判定你分析出来的url是否是重复的,你用hash当然也可以,但是bloom:filter占用资源小很多
所以就是每分析得到一个url,先用filter检查,如果是新的,就add到filter,同时enqueue
爬虫线程主要从queue里面dequeue然后爬就好了

这个无非都是为了效率.
你要是不考虑效率,把分析结果入mysql,爬虫从mysql里面去拿
这样是否更好理解?但是性能就差很多.

话说,你为啥不试试anyevent?
用py的话说
cobrawgl 发表于 2012-05-09 13:20
用 AnyEvent::HTTP 做爬虫可真不错
别的不敢说，做爬虫，肯定是Coro + AnyEvent::HTTP，性能和内存使用好到你不信，呵呵