免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 27225 | 回复: 70
打印 上一主题 下一主题

[C] 发布一个单机版的spider,分布式版本还在开发中 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-06-11 18:12 |只看该作者 |正序浏览
依赖库:libevbase http://sbase.googlecode.com/files/libevbase-0.0.14.tar.gz
下载下来的数据压缩存储到一个文件里,可通过meta索引去遍历,这个版本是个demo...
希望有兴趣的跟我一块开发吧,分布式版本目前还在完善DNS解析和文件存储上.



http://libibase.googlecode.com/files/tlink.tar.gz

使用方法,执行里边的s.sh编译会生成可执行文件 tlink

tlink使用方法:
Usage:./tlink hostname path connections

实例:
./tlink  www.sina.com.cn / 32

其实域名,其实路径,连接最大数.

[ 本帖最后由 redor 于 2009-3-9 11:50 编辑 ]

tlink.tar.gz

68.23 KB, 下载次数: 219

论坛徽章:
0
71 [报告]
发表于 2012-03-15 17:24 |只看该作者
回复 1# redor


    谢谢

论坛徽章:
0
70 [报告]
发表于 2009-02-19 11:53 |只看该作者
ok,谢谢你这么认真回答

论坛徽章:
0
69 [报告]
发表于 2009-02-19 11:35 |只看该作者
原帖由 james.liu 于 2009-2-19 11:19 发表
目前分词你怎么做的? 如何思考其准确以及如何保证其准确,人工参与度大概多少? 如何保持其自我学习?

爬虫需要提供模板? 目前主要针对网页?

分布了? 那么你怎么思考网络传输以及存储

压缩算法是?



分词主要是机械分词, 双向最大匹配, 当然基于词库, 词库不用太大, 常用的几万条词库就够了, 目前正在开发新词识别部分.

爬虫抓下来 做抽取对于垂直搜索来说肯定是需要模板的, 不然没法通用, 普通的通用搜索我已经解决掉正文抽取问题了, 看我之前发的帖子.

分布式的架构看你多大的数据规模, 不上亿数据分布式只有在检索上需要做, 下载抓取我的hispider已经支持多机分布式下载, 存储目前只能支持文件存储, 所有数据都放在一个大文件里存储.


压缩存储采用zlib压缩.

论坛徽章:
0
68 [报告]
发表于 2009-02-19 11:19 |只看该作者
目前分词你怎么做的? 如何思考其准确以及如何保证其准确,人工参与度大概多少? 如何保持其自我学习?

爬虫需要提供模板? 目前主要针对网页?

分布了? 那么你怎么思考网络传输以及存储

压缩算法是?

论坛徽章:
0
67 [报告]
发表于 2009-02-19 11:13 |只看该作者
原帖由 james.liu 于 2009-2-19 10:09 发表
现在做的怎么样啦。。

我关心的是 分词  压缩 DNS


我正在做一个比较能接近垂直搜索的下载系统, 分词我独立放在内容处理模块的, 抽取部分可以模板化抽取. hispider目前已经实现异步DNS, HTTP压缩都可以.

论坛徽章:
0
66 [报告]
发表于 2009-02-19 10:09 |只看该作者
现在做的怎么样啦。。

我关心的是 分词  压缩 DNS

论坛徽章:
0
65 [报告]
发表于 2009-01-20 16:28 |只看该作者
原帖由 saite 于 2008-6-13 20:29 发表
数字指纹不是hash,就是一串很长很长的二进制,比如0001001000101110...1100
系统运行的时候先把这串0101加载到内存,然后url判重的时候计算url对应011011中1的index,比如计算出来的是 7,12,67,88,102, 就 ...


BloomFilter,我毕业设计搞的分布式的spider,URL去重用的就是这个了

论坛徽章:
0
64 [报告]
发表于 2008-07-18 18:37 |只看该作者
原帖由 cjcse 于 2008-7-18 17:11 发表
spider似乎意义不大,搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新,已经防止重复抓取页面,这个比较有技术含量,纯粹从网页中提取herf,然后下载下来没有什么意义。unix下面wget就可以了, ...



没有网页怎么排名呢? wget能那么好用就没人会写spider了

论坛徽章:
0
63 [报告]
发表于 2008-07-18 17:11 |只看该作者

spider似乎意义不大,搜索引擎的关键技术是网页排名。

spider似乎意义不大,搜索引擎的关键技术是网页排名。
不过apider也负责对页面进行更新,已经防止重复抓取页面,这个比较有技术含量,纯粹从网页中提取herf,然后下载下来没有什么意义。unix下面wget就可以了,或者用python更简单些。
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP