免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

论坛徽章:
0
51 [报告]
发表于 2008-06-21 19:16 |只看该作者

回复 #1 redor 的帖子

首先感谢楼主的共享,但我想问下楼主这个和larbin相比自己的优点在哪?

论坛徽章:
0
52 [报告]
发表于 2008-06-22 09:34 |只看该作者
原帖由 lukeden 于 2008-6-21 19:16 发表
首先感谢楼主的共享,但我想问下楼主这个和larbin相比自己的优点在哪?



larbin 其实有一个比较致命的缺点就是单个文件分开存,如果你的抓取数据量大的话,磁盘的INODE将会被你用光.....

论坛徽章:
0
53 [报告]
发表于 2008-06-22 09:34 |只看该作者

回复 #52 七夜 的帖子

开源么?还有你现在多少文档?做过多少数据量级别的测试? 相关性效果如何?支持在线索引么?支持删除和更新么? 支持倒排归并么?

[ 本帖最后由 redor 于 2008-6-22 09:35 编辑 ]

论坛徽章:
0
54 [报告]
发表于 2008-06-22 16:32 |只看该作者
暂不能分布式,就是因为你的URL列表不能部署在其它机器吧?

我以前写过专门解析URL地址的,专门解析网页中的LINK,这样其实只要一个入口,你就基本可以搜索全互联网。但只是理论,因为没有N多机器,基本上是不可能抓全。

另外确实不推荐正则表达。一次解析绝对效率高很多。

获取网页的速度是最大瓶颈,跟你的网速有关,也跟对方的网速有关。

另外,个人觉得现在搜索引擎的技术涉及太多点了,现在大家主流是做爬虫,做索引,但做文本分析的很少,这个是技术关键点,其它的都比较成熟了。只有对文本分析,才能提高搜索的质量,现在的google很强大,但出来的内容不能让人满意,关键就是文本分析,怎么能在很多噪音的网页中,区分出主体内容,并能排重这些内容才是关键。

所以我本人已经把方向转到文本分析方向了。希望能有感兴趣的交流交流。

论坛徽章:
0
55 [报告]
发表于 2008-06-22 17:37 |只看该作者
N多马甲讨论挺欢的,嘻嘻

论坛徽章:
0
56 [报告]
发表于 2008-06-22 18:26 |只看该作者

回复 #56 七夜 的帖子

你不会是一个词对应一个倒排文件吧?哈哈.... 我目前的策略是首先放一个文件,然后根据命中设定阀值放入单独的倒排....

如果真是这样,你要是有100w词的时候你就有100w个文件.呵呵想想这个会多么恐怖的事情.
我目前的策略是按扇区(512字节)为最小大为存储,每个词对应的倒排将会是一个链表结构的倒排.... 内存里之存放每个词的起始位置,读取一个块然后再继续读取下一个块.... 这几天就要写完了.

[ 本帖最后由 redor 于 2008-6-22 18:28 编辑 ]

论坛徽章:
0
57 [报告]
发表于 2008-06-22 20:28 |只看该作者
原帖由 七夜 于 2008-6-22 19:23 发表
一个词一个倒排文件,索引的时候效率太慢了。已经放弃了这个方案了。
我采用的是 N个 关键词一个 文件。 这样无论是索引效率 还是 检索效率。 都很高的



你这个方案也不错,做过100w级别测试么?要是做过了给个测试结果,我也考虑这个试试看,

这个方案你还是需要分块的吧?

论坛徽章:
0
58 [报告]
发表于 2008-07-18 17:11 |只看该作者

spider似乎意义不大,搜索引擎的关键技术是网页排名。

spider似乎意义不大,搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新,已经防止重复抓取页面,这个比较有技术含量,纯粹从网页中提取herf,然后下载下来没有什么意义。unix下面wget就可以了,或者用python更简单些。

论坛徽章:
0
59 [报告]
发表于 2008-07-18 18:37 |只看该作者
原帖由 cjcse 于 2008-7-18 17:11 发表
spider似乎意义不大,搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新,已经防止重复抓取页面,这个比较有技术含量,纯粹从网页中提取herf,然后下载下来没有什么意义。unix下面wget就可以了, ...



没有网页怎么排名呢? wget能那么好用就没人会写spider了

论坛徽章:
0
60 [报告]
发表于 2009-01-20 16:28 |只看该作者
原帖由 saite 于 2008-6-13 20:29 发表
数字指纹不是hash,就是一串很长很长的二进制,比如0001001000101110...1100
系统运行的时候先把这串0101加载到内存,然后url判重的时候计算url对应011011中1的index,比如计算出来的是 7,12,67,88,102, 就 ...


BloomFilter,我毕业设计搞的分布式的spider,URL去重用的就是这个了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP