免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

分布式定向采集系统ispider发布 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-12-17 10:33 |显示全部楼层
原帖由 cugb_cat 于 2009-12-17 10:21 发表

恩,应该叫抓取策略好一些。因为有些页面可能几个月都不更新,这种每次都重复抓来,得不偿失。
我的这个问题主要是想问,既然是垂直搜索,那实时性如何保证?



其实所谓的更新一般是更新列表页, 很少回去更新具体的详细页面的,每次更新列表页 会URL排重, 遇到新的URL才会下载, 当然是否重新下这些都可以设置。
其实这些都容易做到, 这里边最不好作的就是模板配置,这个太费功夫了。

其实搜索的实时性大概可以由两个东西来决定:
  1. 抓取数据的实时性 也就是是否能实时抓去网站最新的数据, 这个大概可以通过设置优先级来实现, 重要的,要求高的可以设置优先级高一些, 另外更新的周期设置短一些。其实我现在做的这个系统跟之前的系统比就是多了任务优先级, 抓取树,数据抽取, 其他的都没怎么变。

  2. 索引的实时性,整理完成的数据需要实时增量索引, 这个就要求索引在设计的时候具备这样的能力, 之前我发不过一个索引,算是实验型的,是可以做到实时增量索引的,不过自己进搞这个采集系统,那个东西就没做了, 等做完这个再回去继续改进。

论坛徽章:
0
12 [报告]
发表于 2010-01-06 11:08 |显示全部楼层
原帖由 aychxm 于 2010-1-6 10:02 发表
不错,很强大,
抓取模板确实不好配,主要是有些网站经常变动
突然某一天抓的数据特别少的时候,就是网站变了
纯用socket自己发送请求,麻烦了点吧,这个应该有库可以用的
不过自己写也是一种锻炼啊
楼主英明



我有线程的socket 通信的封装 很简单的

论坛徽章:
0
13 [报告]
发表于 2010-01-06 11:09 |显示全部楼层
原帖由 GodPig 于 2010-1-5 23:51 发表
呵呵,来围观~~~

这是做什么用的,完全不懂的说……



抓页面用的

论坛徽章:
0
14 [报告]
发表于 2010-01-06 11:38 |显示全部楼层
原帖由 yyoc 于 2010-1-6 11:23 发表
LZ是纯用socket发送请求获取页面信息的么?这些“请求”有标准么?


当然有标准

HTTP/1.0 HTTP/1.1 rfc2616

论坛徽章:
0
15 [报告]
发表于 2012-03-25 22:18 |显示全部楼层
fjzhuozl 发表于 2011-08-05 11:25
源码,编译好像有问题。。。。。。。


这个版本停止维护了 之前这个版本很多设计还不是很成熟, 新的版本改名ispider:http://libibase.googlecode.com/files/ispider-0.0.1.tar.gz

还在测试中

论坛徽章:
0
16 [报告]
发表于 2012-04-26 18:09 |显示全部楼层
本帖最后由 redor 于 2012-04-26 18:11 编辑

已经更新0.0.2版本,有测试例子数据和教程。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP