免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: redor
打印 上一主题 下一主题

分布式定向采集系统ispider发布 [复制链接]

论坛徽章:
0
21 [报告]
发表于 2009-12-15 10:05 |只看该作者
不错,lz早日架一个来用看看

论坛徽章:
0
22 [报告]
发表于 2009-12-15 10:54 |只看该作者
原帖由 ysheng 于 2009-12-15 10:05 发表
不错,lz早日架一个来用看看



已经更新了, 添加了SSL支持, 等把用户管理弄好了就可以给大家在线测试了。

同时还有很多问题要解决,抓取的模板配置这个是个难题,自动生成模板的技术还在研究中。

论坛徽章:
0
23 [报告]
发表于 2009-12-15 10:56 |只看该作者
原帖由 benlan 于 2009-12-14 09:29 发表
能把采集的数据信息组装成XML结构化数据吗?



完全可以的, 其实设计目标就是直接入数据库或者到处XML格式文件, 一般建议直接入库, XML文件处理起来麻烦很多,倒是数据迁移的话XML是不错的选择。

论坛徽章:
0
24 [报告]
发表于 2009-12-15 13:26 |只看该作者
原帖由 redor 于 2009-12-11 20:27 发表



用于定向采集数据 比如论坛的帖子 B2B商品信息和公司信息等, 通过树庄的抓取路径来关联数据, 使得分布在不同页面的内容整合成一条完整的信息, 把杂乱的信息转换为结构化的信息。

主要用于垂直搜索引 ...

牛x啊
偶像

论坛徽章:
0
25 [报告]
发表于 2009-12-15 15:33 |只看该作者
牛!用啥语言写的? 脚本语言写这个开发效率应该要高些吧

论坛徽章:
0
26 [报告]
发表于 2009-12-15 17:01 |只看该作者
原帖由 学与思 于 2009-12-15 15:33 发表
牛!用啥语言写的? 脚本语言写这个开发效率应该要高些吧



纯C写的, 前端展示用HTML + JS做的, 用脚本语言写在处理数据的能力上要差很多, 效率也是一个问题。

论坛徽章:
0
27 [报告]
发表于 2009-12-15 21:21 |只看该作者
顶一个。

论坛徽章:
0
28 [报告]
发表于 2009-12-16 09:53 |只看该作者
拜一个!
这个世界不从来不缺少牛人...

论坛徽章:
0
29 [报告]
发表于 2009-12-16 10:08 |只看该作者

论坛徽章:
0
30 [报告]
发表于 2009-12-16 16:01 |只看该作者
太牛了,顶一个。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP