免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

分布式定向采集系统ispider发布 [复制链接]

论坛徽章:
0
31 [报告]
发表于 2009-12-16 17:15 |只看该作者
查看了楼主发的一系列帖子,可以清晰的看到一个人持续学习钻研某方面技术的轨迹,对比之后很惭愧,向楼主学习。

论坛徽章:
0
32 [报告]
发表于 2009-12-16 20:39 |只看该作者
找机会我试用下lz的采集系统,呵呵。
也省了我再去写spider了。

论坛徽章:
0
33 [报告]
发表于 2009-12-16 22:16 |只看该作者
原帖由 cugb_cat 于 2009-12-16 20:39 发表
找机会我试用下lz的采集系统,呵呵。
也省了我再去写spider了。



造轮子获得的可不仅仅是轮子!哈哈!

[ 本帖最后由 redor 于 2009-12-16 22:19 编辑 ]

论坛徽章:
0
34 [报告]
发表于 2009-12-16 23:55 |只看该作者

回复 #23 redor 的帖子

其实提出来是否存成XML格式,其实是个通用性的问题。
大概看了下抓图和介绍,没有试用。说说大概的印象:
感觉楼主的产品是个具体的专用性的采集器,比如针对一个论坛,然后分析HTML的TAG,然后分析自己要的数据,构造模板,GET数据,匹配模板,入库,好像要抓取不同的论坛,都要构造一个模板,匹配最好入库。
通用的一点的采集器:
HTTP GET 一个种子,分析URL,全站端下来,原封不动的保存在目录下。
更通用一点的采集器:
HTTP GET 一个种子,分析URL,全站端下来,把原始数据转成XML格式的XHTML,以XML格式为处理对象,比如取数据入库,或做索引,提供服务等。
觉得C做的采集器的好处是可以更好的控制SOCKET通信,如果控制的好,能做成非常好的分布式采集器。
关于楼主说的脚本语言的问题,个人觉得使用PERL等脚本语言处理抓取下来以后的页面数据的处理可能效率会更高

论坛徽章:
0
35 [报告]
发表于 2009-12-17 09:39 |只看该作者
原帖由 benlan 于 2009-12-16 23:55 发表
其实提出来是否存成XML格式,其实是个通用性的问题。
大概看了下抓图和介绍,没有试用。说说大概的印象:
感觉楼主的产品是个具体的专用性的采集器,比如针对一个论坛,然后分析HTML的TAG,然后分析自己要的数 ...

哈哈,lz的这个精准抓取,正合我意,我要的就是这么个准确的抓取程序。
不过还有个问题,不知道抓取速度如何,还有,是否支持增量抓取?

论坛徽章:
0
36 [报告]
发表于 2009-12-17 09:40 |只看该作者
原帖由 redor 于 2009-12-16 22:16 发表



造轮子获得的可不仅仅是轮子!哈哈!

现在没那么多时间和动力造轮子啦,前段时间造了一半,现在也造不下去了。。。

论坛徽章:
0
37 [报告]
发表于 2009-12-17 09:41 |只看该作者
原帖由 benlan 于 2009-12-16 23:55 发表
其实提出来是否存成XML格式,其实是个通用性的问题。
大概看了下抓图和介绍,没有试用。说说大概的印象:
感觉楼主的产品是个具体的专用性的采集器,比如针对一个论坛,然后分析HTML的TAG,然后分析自己要的数 ...



我这个不应该算是网站采集器 应该是定向结构化数据采集系统, 也就是需要把不同样式的网站的数据最后都整合成一个结构化的数据,其实早期设计目标是专门针对垂直搜索的, 但是做到后期我发现其实用处不仅仅是垂直搜索采集系统, 简单一点说就是只抓取自己想要的数据 不需要的尽量少的浪费时间和带宽, 还有数据的导出格式会支持XML导出和直接入DB库。
数据的精确抽取通过配置模板来实现,然后会有一些内容处理的东西,比如去HTML 去广告的处理,还有图片缩略功能, 目前这部分还没有完全实现,不过之前都有一些实验性的模板测试过了,下面就是整合测试的工作。

论坛徽章:
0
38 [报告]
发表于 2009-12-17 09:41 |只看该作者
原帖由 cugb_cat 于 2009-12-17 09:40 发表

现在没那么多时间和动力造轮子啦,前段时间造了一半,现在也造不下去了。。。



你的轮子拿来我们看看吧, 说不定可以让大家学习学习呢

论坛徽章:
0
39 [报告]
发表于 2009-12-17 09:44 |只看该作者
原帖由 cugb_cat 于 2009-12-17 09:39 发表

哈哈,lz的这个精准抓取,正合我意,我要的就是这么个准确的抓取程序。
不过还有个问题,不知道抓取速度如何,还有,是否支持增量抓取?



抓取速度取决于你的带宽和服务器端的带宽, 我这个速度到不是问题, 你可以设置抓取的线程数, 也可以开N个下载节点同时下载, 一般情况下有带宽都会被跑满, 增量抓取? 你说的是更新吧 抓取还真没有增量这个说法, 一般都说增量索引, 更新的事情还在设计, 之前设计的方案不怎么可靠, 主要是想在设计成比较好设置的方式工作。

论坛徽章:
0
40 [报告]
发表于 2009-12-17 10:19 |只看该作者
原帖由 redor 于 2009-12-17 09:41 发表



你的轮子拿来我们看看吧, 说不定可以让大家学习学习呢

我那个根本就没成型。。
我打算先用开源的东西了,等实在遇到瓶颈了,再做,有需求才有动力嘛
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP