12 3 4 5 6 7 8 9 / 9 页下一页

论坛徽章:: 3

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-05-31 16:42 |只看该作者 |倒序浏览

目前跟一骚年@grshrd49在研究整站爬虫。列出一些需求，准备倒腾一下。
看看有木有志同道合的骚年一块研究研究。
需求如下：
1.取出页面中的URL
2.对比目标URL排除不符合目标的URL
3.对URL进行排序

这三个是完成了，貌似这爬虫很弱。。。

目前还需要做以下需求加强：
1.抓取二级目标
2.找到停止的方法。

在这请教下几个大神，指导下。。。@zhlong8 @mcshell @iakuf
谢谢啦

文库|博客

mcshell

富足长乐

论坛徽章:: 3

2楼 [报告]

发表于 2013-05-31 17:59 |只看该作者

{:3_186:}{:3_186:}{:3_186:}
让其他大神看看。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

墨迹哥

富足长乐

论坛徽章:: 3

3楼 [报告]

发表于 2013-06-01 00:36 |只看该作者

回复 2# mcshell

貌似云总那代码能解决问题。。我去好好看看！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iakuf

小富即安

论坛徽章:: 1

4楼 [报告]

发表于 2013-06-01 09:05 |只看该作者

本帖最后由 iakuf 于 2013-06-01 09:06 编辑

回复 1# 墨迹哥
我在被你们上次华丽的忽略的这个程序上改进了下，可以达到你们的要求。其中 $dept_level 是用来控制抓的深度，24 行的正则是用于控制只抓指定的域名。层次达到，并没新的 url 的时候，就会自动退出。

#!/usr/bin/perl
use strict;
use Mojo::UserAgent;
use Bloom::Filter;
use Smart::Comments;
my $dept_level = 2;
my $filter = Bloom::Filter->new(capacity => 100000, error_rate => 0.0001);
my $ua = Mojo::UserAgent->new;
my $delay = Mojo::IOLoop->delay;
my $end = $delay->begin(0);
my $callback;$callback = sub {
my ($ua, $tx) = @_;
returnif !$tx->success;
my $dept = $tx->req->headers->header('dept');
return if $dept > $dept_level;
++$dept;
$tx->res->dom->find("a[href]")->each(sub{
my $attrs = shift->attrs;
my $newUrl = $attrs->{href};
next if $newUrl !~ /php-oa.com/;
if( !$filter->check($newUrl) ) {
print $filter->key_count(), " $dept ", $newUrl, "\n";
$filter->add($newUrl);
$ua->get($newUrl => { dept => $dept } => $callback);
}
});
$end->();
};
$ua->get($ARGV[0] => { dept => 1} => $callback);
Mojo::IOLoop->start unless Mojo::IOLoop->is_running;

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dugu072

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2013-06-01 12:49 |只看该作者

ls的代码简单测试下，感觉至少有两个大问题：
1. 没有解决相对路径的问题，尤其在不同host抓取时，相对路径尤其要处理正确——另外Mojo::UA->get会因为错误的url挂住比较长时间。
2. 没有控制并发请求的数量，大站的url往往非常多，几百个都算少的，不加控制的同时get几百个url，Mojo::UA不能正常处理的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yakczh_cu

家境小康

论坛徽章:: 1

6楼 [报告]

发表于 2013-06-01 16:09 |只看该作者

$newUrl => { dept => $dept } => $callback 这是什么语法

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iakuf

小富即安

论坛徽章:: 1

7楼 [报告]

发表于 2013-06-01 17:43 |只看该作者

本帖最后由 iakuf 于 2013-06-01 21:45 编辑

回复 5# dugu072

路径全不全这个加一行很容易解决，可能还有其它 bug 这个不是重点，这只是个例子。要控制并发，超时，重定向。。。还有其它很多功能之类其它，请看看 Mojo::UserAgent 的 pod，你讲的东西看看他的参数 max_connections,默认为 5 个并发保持的连接。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iakuf

小富即安

论坛徽章:: 1

8楼 [报告]

发表于 2013-06-01 21:29 |只看该作者

回复 6# yakczh_cu

这只是 Mojo::UserAgent 的语法，第一个参数是请求的 url ，第二个参数是请求发送的 Header，最后一个参数是请求发送完的响应产生的回调。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dugu072

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2013-06-01 22:29 |只看该作者

回复 7# iakuf

本来也只是提醒大家这个代码不能直接使用，有一些问题。
另外 max-connections 只是与 http 的keep alive机制相关，与这里的并发请求无关的，因此如果爬一个页面有几百个URL，Mojo::Reactor一下子监控几百个IO，基本就挂死了（实测：本机用的Mojo::Reactor:

oll，没装EV），完全不能正常工作的。
Mojo确实很棒，实用及其灵活，但也因为灵活，导致有好些使用上的注意点，这里只是给提醒下大家～

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yakczh_cu

家境小康

论坛徽章:: 1

10楼 [报告]

发表于 2013-06-01 23:38 |只看该作者

iakuf 发表于 2013-06-01 21:29
回复 6# yakczh_cu

这只是 Mojo::UserAgent 的语法，第一个参数是请求的 url ，第二个参数是请求发送的 ...

通过perl的什么语法实现的? hashref?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 5 6 7 8 9 / 9 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › Perl爬虫，爬整站研究

Perl爬虫，爬整站研究 [复制链接]