免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-06-14 12:22 |显示全部楼层

回复 #33 sunki 的帖子

把头文件里的sbase去掉,可能是没有去掉

论坛徽章:
0
12 [报告]
发表于 2008-06-17 07:46 |显示全部楼层

回复 #41 robble 的帖子

这个是你自己写的还是用的lucene?

论坛徽章:
0
13 [报告]
发表于 2008-06-18 15:26 |显示全部楼层
原帖由 robble 于 2008-6-18 13:31 发表
我用c从分词、索引、系统架构、数据结构、算法。完全自己写的。



你自己创业?我看下面是公司的?我起初还以为是你个人的呢..呵呵

论坛徽章:
0
14 [报告]
发表于 2008-06-22 09:34 |显示全部楼层
原帖由 lukeden 于 2008-6-21 19:16 发表
首先感谢楼主的共享,但我想问下楼主这个和larbin相比自己的优点在哪?



larbin 其实有一个比较致命的缺点就是单个文件分开存,如果你的抓取数据量大的话,磁盘的INODE将会被你用光.....

论坛徽章:
0
15 [报告]
发表于 2008-06-22 09:34 |显示全部楼层

回复 #52 七夜 的帖子

开源么?还有你现在多少文档?做过多少数据量级别的测试? 相关性效果如何?支持在线索引么?支持删除和更新么? 支持倒排归并么?

[ 本帖最后由 redor 于 2008-6-22 09:35 编辑 ]

论坛徽章:
0
16 [报告]
发表于 2008-06-22 18:26 |显示全部楼层

回复 #56 七夜 的帖子

你不会是一个词对应一个倒排文件吧?哈哈.... 我目前的策略是首先放一个文件,然后根据命中设定阀值放入单独的倒排....

如果真是这样,你要是有100w词的时候你就有100w个文件.呵呵想想这个会多么恐怖的事情.
我目前的策略是按扇区(512字节)为最小大为存储,每个词对应的倒排将会是一个链表结构的倒排.... 内存里之存放每个词的起始位置,读取一个块然后再继续读取下一个块.... 这几天就要写完了.

[ 本帖最后由 redor 于 2008-6-22 18:28 编辑 ]

论坛徽章:
0
17 [报告]
发表于 2008-06-22 20:28 |显示全部楼层
原帖由 七夜 于 2008-6-22 19:23 发表
一个词一个倒排文件,索引的时候效率太慢了。已经放弃了这个方案了。
我采用的是 N个 关键词一个 文件。 这样无论是索引效率 还是 检索效率。 都很高的



你这个方案也不错,做过100w级别测试么?要是做过了给个测试结果,我也考虑这个试试看,

这个方案你还是需要分块的吧?

论坛徽章:
0
18 [报告]
发表于 2008-07-18 18:37 |显示全部楼层
原帖由 cjcse 于 2008-7-18 17:11 发表
spider似乎意义不大,搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新,已经防止重复抓取页面,这个比较有技术含量,纯粹从网页中提取herf,然后下载下来没有什么意义。unix下面wget就可以了, ...



没有网页怎么排名呢? wget能那么好用就没人会写spider了

论坛徽章:
0
19 [报告]
发表于 2009-02-19 11:13 |显示全部楼层
原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是 分词  压缩 DNS


我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

论坛徽章:
0
20 [报告]
发表于 2009-02-19 11:35 |显示全部楼层
原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的? 如何思考其准确以及如何保证其准确,人工参与度大概多少? 如何保持其自我学习?

爬虫需要提供模板? 目前主要针对网页?

分布了? 那么你怎么思考网络传输以及存储

压缩算法是?



分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来 做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.


压缩存储采用zlib压缩.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP