1 2 3 4 567 / 7 页下一页

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

lukeden

丰衣足食

论坛徽章:: 0

51楼 [报告]

发表于 2008-06-21 19:16 |只看该作者

回复 #1 redor 的帖子

首先感谢楼主的共享，但我想问下楼主这个和larbin相比自己的优点在哪？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

52楼 [报告]

发表于 2008-06-22 09:34 |只看该作者

原帖由 lukeden 于 2008-6-21 19:16 发表
首先感谢楼主的共享，但我想问下楼主这个和larbin相比自己的优点在哪？

larbin 其实有一个比较致命的缺点就是单个文件分开存,如果你的抓取数据量大的话,磁盘的INODE将会被你用光.....

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

53楼 [报告]

发表于 2008-06-22 09:34 |只看该作者

回复 #52 七夜的帖子

开源么?还有你现在多少文档?做过多少数据量级别的测试? 相关性效果如何?支持在线索引么?支持删除和更新么? 支持倒排归并么?

[ 本帖最后由 redor 于 2008-6-22 09:35 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chetieq

白手起家

论坛徽章:: 0

54楼 [报告]

发表于 2008-06-22 16:32 |只看该作者

暂不能分布式，就是因为你的URL列表不能部署在其它机器吧？

我以前写过专门解析URL地址的，专门解析网页中的LINK，这样其实只要一个入口，你就基本可以搜索全互联网。但只是理论，因为没有N多机器，基本上是不可能抓全。

另外确实不推荐正则表达。一次解析绝对效率高很多。

获取网页的速度是最大瓶颈，跟你的网速有关，也跟对方的网速有关。

另外，个人觉得现在搜索引擎的技术涉及太多点了，现在大家主流是做爬虫，做索引，但做文本分析的很少，这个是技术关键点，其它的都比较成熟了。只有对文本分析，才能提高搜索的质量，现在的google很强大，但出来的内容不能让人满意，关键就是文本分析，怎么能在很多噪音的网页中，区分出主体内容，并能排重这些内容才是关键。

所以我本人已经把方向转到文本分析方向了。希望能有感兴趣的交流交流。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cpluscc

禁止发言

论坛徽章:: 0

55楼 [报告]

发表于 2008-06-22 17:37 |只看该作者

N多马甲讨论挺欢的，嘻嘻

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

56楼 [报告]

发表于 2008-06-22 18:26 |只看该作者

回复 #56 七夜的帖子

你不会是一个词对应一个倒排文件吧?哈哈.... 我目前的策略是首先放一个文件,然后根据命中设定阀值放入单独的倒排....

如果真是这样,你要是有100w词的时候你就有100w个文件.呵呵想想这个会多么恐怖的事情.
我目前的策略是按扇区(512字节)为最小大为存储,每个词对应的倒排将会是一个链表结构的倒排.... 内存里之存放每个词的起始位置,读取一个块然后再继续读取下一个块.... 这几天就要写完了.

[ 本帖最后由 redor 于 2008-6-22 18:28 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

57楼 [报告]

发表于 2008-06-22 20:28 |只看该作者

原帖由七夜于 2008-6-22 19:23 发表
一个词一个倒排文件，索引的时候效率太慢了。已经放弃了这个方案了。
我采用的是 N个关键词一个文件。这样无论是索引效率还是检索效率。都很高的

你这个方案也不错,做过100w级别测试么?要是做过了给个测试结果,我也考虑这个试试看,

这个方案你还是需要分块的吧?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjcse

丰衣足食

论坛徽章:: 0

58楼 [报告]

发表于 2008-07-18 17:11 |只看该作者

spider似乎意义不大，搜索引擎的关键技术是网页排名。

spider似乎意义不大，搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新，已经防止重复抓取页面，这个比较有技术含量，纯粹从网页中提取herf，然后下载下来没有什么意义。unix下面wget就可以了，或者用python更简单些。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

59楼 [报告]

发表于 2008-07-18 18:37 |只看该作者

原帖由 cjcse 于 2008-7-18 17:11 发表
spider似乎意义不大，搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新，已经防止重复抓取页面，这个比较有技术含量，纯粹从网页中提取herf，然后下载下来没有什么意义。unix下面wget就可以了， ...

没有网页怎么排名呢? wget能那么好用就没人会写spider了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tonyhack

白手起家

论坛徽章:: 0

60楼 [报告]

发表于 2009-01-20 16:28 |只看该作者

原帖由 saite 于 2008-6-13 20:29 发表
数字指纹不是hash,就是一串很长很长的二进制,比如0001001000101110...1100
系统运行的时候先把这串0101加载到内存,然后url判重的时候计算url对应011011中1的index,比如计算出来的是 7,12,67,88,102, 就 ...

BloomFilter，我毕业设计搞的分布式的spider，URL去重用的就是这个了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 2 3 4 567 / 7 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 发布一个单机版的spider,分布式版本还在开发中

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

回复 #1 redor 的帖子

回复 #52 七夜 的帖子

回复 #56 七夜 的帖子

spider似乎意义不大，搜索引擎的关键技术是网页排名。

回复 #52 七夜的帖子

回复 #56 七夜的帖子