论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-06-11 18:12 |只看该作者 |正序浏览

依赖库:libevbase http://sbase.googlecode.com/files/libevbase-0.0.14.tar.gz
下载下来的数据压缩存储到一个文件里,可通过meta索引去遍历,这个版本是个demo...
希望有兴趣的跟我一块开发吧,分布式版本目前还在完善DNS解析和文件存储上.

http://libibase.googlecode.com/files/tlink.tar.gz

使用方法,执行里边的s.sh编译会生成可执行文件 tlink

tlink使用方法:
Usage:./tlink hostname path connections

实例:
./tlink www.sina.com.cn / 32

其实域名,其实路径,连接最大数.

[ 本帖最后由 redor 于 2009-3-9 11:50 编辑 ]

tlink.tar.gz

68.23 KB, 下载次数: 219

文库|博客

informat

白手起家

论坛徽章:: 0

71楼 [报告]

发表于 2012-03-15 17:24 |只看该作者

回复 1# redor

谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

james.liu

家境小康

论坛徽章:: 0

70楼 [报告]

发表于 2009-02-19 11:53 |只看该作者

ok，谢谢你这么认真回答

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

69楼 [报告]

发表于 2009-02-19 11:35 |只看该作者

原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的？如何思考其准确以及如何保证其准确，人工参与度大概多少？如何保持其自我学习？

爬虫需要提供模板？目前主要针对网页？

分布了？那么你怎么思考网络传输以及存储

压缩算法是？

分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.

压缩存储采用zlib压缩.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

james.liu

家境小康

论坛徽章:: 0

68楼 [报告]

发表于 2009-02-19 11:19 |只看该作者

目前分词你怎么做的？如何思考其准确以及如何保证其准确，人工参与度大概多少？如何保持其自我学习？

爬虫需要提供模板？目前主要针对网页？

分布了？那么你怎么思考网络传输以及存储

压缩算法是？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redor

家境小康

论坛徽章:: 0

67楼 [报告]

发表于 2009-02-19 11:13 |只看该作者

原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是分词压缩 DNS

我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

james.liu

家境小康

论坛徽章:: 0

66楼 [报告]

发表于 2009-02-19 10:09 |只看该作者

现在做的怎么样啦。。

我关心的是分词压缩 DNS

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tonyhack

白手起家

论坛徽章:: 0

65楼 [报告]

发表于 2009-01-20 16:28 |只看该作者

原帖由 saite 于 2008-6-13 20:29 发表
数字指纹不是hash,就是一串很长很长的二进制,比如0001001000101110...1100
系统运行的时候先把这串0101加载到内存,然后url判重的时候计算url对应011011中1的index,比如计算出来的是 7,12,67,88,102, 就 ...