论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-06-11 18:12 |只看该作者 |倒序浏览

依赖库:libevbase http://sbase.googlecode.com/files/libevbase-0.0.14.tar.gz
下载下来的数据压缩存储到一个文件里,可通过meta索引去遍历,这个版本是个demo...
希望有兴趣的跟我一块开发吧,分布式版本目前还在完善DNS解析和文件存储上.

http://libibase.googlecode.com/files/tlink.tar.gz

使用方法,执行里边的s.sh编译会生成可执行文件 tlink

tlink使用方法:
Usage:./tlink hostname path connections

实例:
./tlink www.sina.com.cn / 32

其实域名,其实路径,连接最大数.

[ 本帖最后由 redor 于 2009-3-9 11:50 编辑 ]

tlink.tar.gz

68.23 KB, 下载次数: 219

文库|博客

pythonor

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2008-06-11 18:42 |只看该作者

mARK

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cookis

小富即安

论坛徽章:: 1

3楼 [报告]

发表于 2008-06-11 20:11 |只看该作者

能不能简单介绍一下这是用来干什么的.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2008-06-11 20:17 |只看该作者

原帖由 cookis 于 2008-6-11 20:11 发表
能不能简单介绍一下这是用来干什么的.

抓页面的蜘蛛...搜索引擎用的.....

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

system888net

腰缠万贯

论坛徽章:: 0

5楼 [报告]

发表于 2008-06-11 20:19 |只看该作者

原帖由 redor 于 2008-6-11 20:17 发表

抓页面的蜘蛛...搜索引擎用的.....

再接再励。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wwdwwd

丰衣足食

论坛徽章:: 0

6楼 [报告]

发表于 2008-06-11 20:41 |只看该作者

楼主如何避免重复抓取？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

7楼 [报告]

发表于 2008-06-11 20:43 |只看该作者

原帖由 wwdwwd 于 2008-6-11 20:41 发表
楼主如何避免重复抓取？

URL MD5放内存 .... 排重

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wwdwwd

丰衣足食

论坛徽章:: 0

8楼 [报告]

发表于 2008-06-11 20:52 |只看该作者

原帖由 redor 于 2008-6-11 20:43 发表

URL MD5放内存 .... 排重

在每一次爬之前都把已经爬过的url提取出来放到内存中，然后爬的时候每爬一个页面先在内存里面查找一遍，有的话不管，没的话再爬？这样效率会不会低？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cugb_cat

版主

论坛徽章:: 0

9楼 [报告]

发表于 2008-06-11 20:53 |只看该作者

不错，支持~！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

10楼 [报告]

发表于 2008-06-11 21:12 |只看该作者

原帖由 wwdwwd 于 2008-6-11 20:52 发表

在每一次爬之前都把已经爬过的url提取出来放到内存中，然后爬的时候每爬一个页面先在内存里面查找一遍，有的话不管，没的话再爬？这样效率会不会低？

其实实际操作的时候是有一个URL队列,也可以是一个队列文件, 每次要添加URL进去的时候都检查一下是否重复,如果不重复就添加,这里的URL添加有两种,一种是人工添加,一种是自动从页面里提取出来的URL. 如果down机的话就把原来的队列URL里的所有URL做一次MD5放到内存便于查询...
大概就是这样....

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 5 6 7 8 / 8 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 发布一个单机版的spider,分布式版本还在开发中

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]