免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1148 | 回复: 0
打印 上一主题 下一主题

Heritrix Crawler vs. Nutch Crawler [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-01-26 10:22 |只看该作者 |倒序浏览


作者:
Fenng
| 可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及
版权声明
网址:
在邮件列表中看到有人问
Heritrix
爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是
Gordon Mohr
,Heritrix 主要用在
http://www.archive.org
。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
没想到过了一会儿,在邮件列表中居然看到了
Gordon Mohr
的发言。看来他也比较关心 Nutch 的发展。
我对 Mohr 的发言整理一下。主要有以下几点:
主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:

  • Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
  • Nutch 可以修剪内容,或者对内容格式进行转换。
  • Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
  • Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
  • Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。

暂时还没有看到 Doug Cutting 对二者比较的评价.
Heritrix 的架构示意图:




本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/13808/showart_471636.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP