免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234567
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

论坛徽章:
0
61 [报告]
发表于 2009-02-19 10:09 |只看该作者
现在做的怎么样啦。。

我关心的是 分词  压缩 DNS

论坛徽章:
0
62 [报告]
发表于 2009-02-19 11:13 |只看该作者
原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是 分词  压缩 DNS


我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

论坛徽章:
0
63 [报告]
发表于 2009-02-19 11:19 |只看该作者
目前分词你怎么做的? 如何思考其准确以及如何保证其准确,人工参与度大概多少? 如何保持其自我学习?

爬虫需要提供模板? 目前主要针对网页?

分布了? 那么你怎么思考网络传输以及存储

压缩算法是?

论坛徽章:
0
64 [报告]
发表于 2009-02-19 11:35 |只看该作者
原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的? 如何思考其准确以及如何保证其准确,人工参与度大概多少? 如何保持其自我学习?

爬虫需要提供模板? 目前主要针对网页?

分布了? 那么你怎么思考网络传输以及存储

压缩算法是?



分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来 做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.


压缩存储采用zlib压缩.

论坛徽章:
0
65 [报告]
发表于 2009-02-19 11:53 |只看该作者
ok,谢谢你这么认真回答

论坛徽章:
0
66 [报告]
发表于 2012-03-15 17:24 |只看该作者
回复 1# redor


    谢谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP