免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › C/C++ › 分布式定向采集系统ispider发布

12 / 2 页

最近访问板块

发新帖

楼主: redor

上一主题

下一主题

分布式定向采集系统ispider发布 [复制链接]

论坛徽章:: 0

11楼 [报告]

发表于 2009-12-17 10:33 |显示全部楼层

原帖由 cugb_cat 于 2009-12-17 10:21 发表

恩，应该叫抓取策略好一些。因为有些页面可能几个月都不更新，这种每次都重复抓来，得不偿失。
我的这个问题主要是想问，既然是垂直搜索，那实时性如何保证？

其实所谓的更新一般是更新列表页，很少回去更新具体的详细页面的，每次更新列表页会URL排重，遇到新的URL才会下载，当然是否重新下这些都可以设置。
其实这些都容易做到，这里边最不好作的就是模板配置，这个太费功夫了。

其实搜索的实时性大概可以由两个东西来决定：
1. 抓取数据的实时性也就是是否能实时抓去网站最新的数据，这个大概可以通过设置优先级来实现，重要的，要求高的可以设置优先级高一些，另外更新的周期设置短一些。其实我现在做的这个系统跟之前的系统比就是多了任务优先级，抓取树，数据抽取，其他的都没怎么变。

2. 索引的实时性，整理完成的数据需要实时增量索引，这个就要求索引在设计的时候具备这样的能力，之前我发不过一个索引，算是实验型的，是可以做到实时增量索引的，不过自己进搞这个采集系统，那个东西就没做了，等做完这个再回去继续改进。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

12楼 [报告]

发表于 2010-01-06 11:08 |显示全部楼层

原帖由 aychxm 于 2010-1-6 10:02 发表
不错，很强大，
抓取模板确实不好配，主要是有些网站经常变动
突然某一天抓的数据特别少的时候，就是网站变了
纯用socket自己发送请求，麻烦了点吧，这个应该有库可以用的
不过自己写也是一种锻炼啊
楼主英明

我有线程的socket 通信的封装很简单的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

13楼 [报告]

发表于 2010-01-06 11:09 |显示全部楼层

原帖由 GodPig 于 2010-1-5 23:51 发表
呵呵，来围观~~~

这是做什么用的，完全不懂的说……

抓页面用的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

14楼 [报告]

发表于 2010-01-06 11:38 |显示全部楼层

原帖由 yyoc 于 2010-1-6 11:23 发表
LZ是纯用socket发送请求获取页面信息的么？这些“请求”有标准么？

当然有标准

HTTP/1.0 HTTP/1.1 rfc2616

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

15楼 [报告]

发表于 2012-03-25 22:18 |显示全部楼层

fjzhuozl 发表于 2011-08-05 11:25
源码，编译好像有问题。。。。。。。

这个版本停止维护了之前这个版本很多设计还不是很成熟，新的版本改名ispider：http://libibase.googlecode.com/files/ispider-0.0.1.tar.gz

还在测试中

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

16楼 [报告]

发表于 2012-04-26 18:09 |显示全部楼层

本帖最后由 redor 于 2012-04-26 18:11 编辑

已经更新0.0.2版本，有测试例子数据和教程。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

发新帖

Chinaunix › 论坛 › 程序设计 › C/C++ › 分布式定向采集系统ispider发布

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP