免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1898 | 回复: 0
打印 上一主题 下一主题

[Web] 轻松搞定Web信息采集工作 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-05-23 10:04 |只看该作者 |倒序浏览
Web是一个巨大的资源宝库,目前页面数目已超过400亿,每小时还以惊人的速度增长,里面有你需要的大量有价值的信息,例如潜在客户的列表与联系信息,竞争产品的价格列表,实时金融新闻,供求信息,论文摘要等等。                   可是由于关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用。

一、 主要功能                 乐思网络信息采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。                   如下图所示:
               

                  
                  图1 乐思信息采集系统概念图
               
                  乐思网络信息采集系统除了可以处理远程网页外,还可以处理本地网页,远程或本地的文本文件。
                 乐思网络信息采集系统主要用于:门户网站新闻采集,行业资讯采集,竞争情报获取,数据库营销等领域。
                二、 系统特点                                    本系统最大的特点是:采集方法的灵活性与采集数据的准确性
                  灵活性:任何复杂的查询与页面布局都可以灵活处理
                  准确性:结果数据高度准确(99%-100%)
                  
                  
                   对目标网站进行信息自动抓取,支持HTML页面内各种数据的采集,如文本信息,URL,数字,日期,图片等
                                     用户对每类信息自定义来源与分类
                                     可以下载图片与各类文件
                                     支持用户名与密码自动登录
                                     支持命令行格式,可以Windows任务计划器配合,定期抽取目标网站
                                     支持记录唯一索引,避免相同信息重复入库
                                     支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除
                                     支持多页面文章内容自动抽取与合并
                                     支持下一页自动浏览功能
                                     支持直接提交表单
                                     支持模拟提交表单
                                     支持动作脚本
                                     支持从一个页面中抽取多个数据表
                                     支持数据的多种后期处理方式
                                     数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间 没有任何耦合
                                     支持数据库表结构完全自定义,充分利用现有系统
                                     支持多个栏目的信息采集可用同一配置一对多处理
                                     保证信息的完整性与准确性,绝不会出现乱码
                                     支持所有主流数据库:MS SQL Server, Oracle, DB2, MySQL, Sybase, Interbase,                   MS Access等



详细资料或者软件下载请看.www.knowlesys.

img_web2db.gif (13.1 KB, 下载次数: 21)

knowlesys,web data extraction

knowlesys,web data extraction
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP