免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

论坛徽章:
0
41 [报告]
发表于 2008-06-16 12:49 |只看该作者
.js解释器直接偷firefox的

论坛徽章:
0
42 [报告]
发表于 2008-06-16 15:30 |只看该作者
嗨,吓我一跳,我还以为是UNIX版本的spider游戏呢。

论坛徽章:
0
43 [报告]
发表于 2008-06-17 07:46 |只看该作者

回复 #41 robble 的帖子

这个是你自己写的还是用的lucene?

论坛徽章:
0
44 [报告]
发表于 2008-06-17 14:34 |只看该作者
原帖由 redor 于 2008-6-11 20:43 发表



URL MD5放内存 .... 排重


排重用hash 是一个明智的选择,md5是hash的一个应用.

论坛徽章:
0
45 [报告]
发表于 2008-06-17 14:56 |只看该作者
mark

论坛徽章:
0
46 [报告]
发表于 2008-06-17 17:32 |只看该作者
其实实际操作的时候是有一个URL队列,也可以是一个队列文件, 每次要添加URL进去的时候都检查一下是否重复,如果不重复就添加,这里的URL添加有两种,一种是人工添加,一种是自动从页面里提取出来的URL..
robble 该用户已被删除
47 [报告]
发表于 2008-06-18 13:31 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
48 [报告]
发表于 2008-06-18 14:49 |只看该作者
目前也在研究中,楼主有兴趣的话可以加我的qq:41031962

论坛徽章:
0
49 [报告]
发表于 2008-06-18 14:55 |只看该作者
fedora9,编译不能通过。

论坛徽章:
0
50 [报告]
发表于 2008-06-18 15:26 |只看该作者
原帖由 robble 于 2008-6-18 13:31 发表
我用c从分词、索引、系统架构、数据结构、算法。完全自己写的。



你自己创业?我看下面是公司的?我起初还以为是你个人的呢..呵呵
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP