12 / 2 页

论坛徽章:: 0

11楼 [报告]

发表于 2008-06-14 12:22 |显示全部楼层

回复 #33 sunki 的帖子

把头文件里的sbase去掉,可能是没有去掉

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

12楼 [报告]

发表于 2008-06-17 07:46 |显示全部楼层

回复 #41 robble 的帖子

这个是你自己写的还是用的lucene?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

13楼 [报告]

发表于 2008-06-18 15:26 |显示全部楼层

原帖由 robble 于 2008-6-18 13:31 发表
我用c从分词、索引、系统架构、数据结构、算法。完全自己写的。

你自己创业?我看下面是公司的?我起初还以为是你个人的呢..呵呵

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

14楼 [报告]

发表于 2008-06-22 09:34 |显示全部楼层

原帖由 lukeden 于 2008-6-21 19:16 发表
首先感谢楼主的共享，但我想问下楼主这个和larbin相比自己的优点在哪？

larbin 其实有一个比较致命的缺点就是单个文件分开存,如果你的抓取数据量大的话,磁盘的INODE将会被你用光.....

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

15楼 [报告]

发表于 2008-06-22 09:34 |显示全部楼层

回复 #52 七夜的帖子

开源么?还有你现在多少文档?做过多少数据量级别的测试? 相关性效果如何?支持在线索引么?支持删除和更新么? 支持倒排归并么?

[ 本帖最后由 redor 于 2008-6-22 09:35 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

16楼 [报告]

发表于 2008-06-22 18:26 |显示全部楼层

回复 #56 七夜的帖子

你不会是一个词对应一个倒排文件吧?哈哈.... 我目前的策略是首先放一个文件,然后根据命中设定阀值放入单独的倒排....

如果真是这样,你要是有100w词的时候你就有100w个文件.呵呵想想这个会多么恐怖的事情.
我目前的策略是按扇区(512字节)为最小大为存储,每个词对应的倒排将会是一个链表结构的倒排.... 内存里之存放每个词的起始位置,读取一个块然后再继续读取下一个块.... 这几天就要写完了.

[ 本帖最后由 redor 于 2008-6-22 18:28 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

17楼 [报告]

发表于 2008-06-22 20:28 |显示全部楼层

原帖由七夜于 2008-6-22 19:23 发表
一个词一个倒排文件，索引的时候效率太慢了。已经放弃了这个方案了。
我采用的是 N个关键词一个文件。这样无论是索引效率还是检索效率。都很高的

你这个方案也不错,做过100w级别测试么?要是做过了给个测试结果,我也考虑这个试试看,

这个方案你还是需要分块的吧?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

18楼 [报告]

发表于 2008-07-18 18:37 |显示全部楼层

原帖由 cjcse 于 2008-7-18 17:11 发表
spider似乎意义不大，搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新，已经防止重复抓取页面，这个比较有技术含量，纯粹从网页中提取herf，然后下载下来没有什么意义。unix下面wget就可以了， ...

没有网页怎么排名呢? wget能那么好用就没人会写spider了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

19楼 [报告]

发表于 2009-02-19 11:13 |显示全部楼层

原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是分词压缩 DNS

我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

20楼 [报告]

发表于 2009-02-19 11:35 |显示全部楼层

原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的？如何思考其准确以及如何保证其准确，人工参与度大概多少？如何保持其自我学习？

爬虫需要提供模板？目前主要针对网页？

分布了？那么你怎么思考网络传输以及存储

压缩算法是？

分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.

压缩存储采用zlib压缩.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 发布一个单机版的spider,分布式版本还在开发中

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

回复 #33 sunki 的帖子

回复 #41 robble 的帖子

回复 #52 七夜 的帖子

回复 #56 七夜 的帖子

回复 #52 七夜的帖子

回复 #56 七夜的帖子