1 2 3 4 5 67 / 7 页

论坛徽章:: 0

61楼 [报告]

发表于 2009-02-19 10:09 |只看该作者

现在做的怎么样啦。。

我关心的是分词压缩 DNS

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

62楼 [报告]

发表于 2009-02-19 11:13 |只看该作者

原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是分词压缩 DNS

我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

james.liu

家境小康

论坛徽章:: 0

63楼 [报告]

发表于 2009-02-19 11:19 |只看该作者

目前分词你怎么做的？如何思考其准确以及如何保证其准确，人工参与度大概多少？如何保持其自我学习？

爬虫需要提供模板？目前主要针对网页？

分布了？那么你怎么思考网络传输以及存储

压缩算法是？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

64楼 [报告]

发表于 2009-02-19 11:35 |只看该作者

原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的？如何思考其准确以及如何保证其准确，人工参与度大概多少？如何保持其自我学习？

爬虫需要提供模板？目前主要针对网页？

分布了？那么你怎么思考网络传输以及存储

压缩算法是？

分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.

压缩存储采用zlib压缩.