免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4113 | 回复: 0
打印 上一主题 下一主题

1.1 什么激发了数据挖掘 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-03-24 19:33 |只看该作者 |倒序浏览
第1章引言

本书是一个导论,介绍一个年轻而充满生机的领域—数据挖掘和从数据中发现知识。书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可伸缩的和有效的数据挖掘工具的开发。本章,我们将了解数据挖掘如何成为数据库技术自然演化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。我们将学习数据挖掘系统的一般结构,并考察可供挖掘的数据种类,可以发现的模式类型,以及什么样的模式提供有用的知识。本章还将学习数据挖掘原语,从这些原语可以设计数据挖掘查询语言。本章还讨论如何将数据挖掘系统与数据库或数据仓库集成的问题。除了研究数据挖掘系统的分类之外,还将看到建立未来的数据挖掘工具所面临的挑战性研究问题。

1.1什么激发了数据挖掘,为什么它是重要的需要是发明之母。—柏拉图

近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。

数据挖掘可以看作是信息技术自然演化的结果。数据库系统业界见证了如下功能的演化过程(见图1-1):数据收集和数据库创建,数据管理(包括数据存储和检索,数据库事务处理),以及高级数据分析(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的早期开发已经成为后来数据存储和检索、查询和事务处理有效机制开发的先决条件。随着提供查询和事务处理的大量数据库系统广泛付诸实践,高级数据分析自然成为下一个目标。

自20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演变到复杂的和功能强大的数据库系统。自20世纪70年代以来,数据库系统的研究和开发已经从早期的层次和网状数据库系统发展到开发关系数据库系统(数据存放在关系表结构中;见1.3.1节)、数据建模工具以及索引和存取方法。此外,用户通过查询语言、用户界面、查询处理优化和事务管理,可以方便灵活地获取数据。联机事务处理(OLTP)的有效方法将查询看作只读事务,对于关系技术的发展和关系技术作为大量数据的有效存储、检索和管理的主要工具得到广泛认可作出了重要贡献。

自20世纪80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些推动了诸如扩充关系模型、面向对象模型、对象-关系模型和演绎模型等先进的数据模型的发展。包括空间的、时间的、多媒体的、主动的、流的、传感器的和科学与工程的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。同数据的分布、多样性和共享有关的问题被广泛研究。异构数据库系统和基于因特网的全球信
息系统(如万维网)也已出现,并成为信息产业的生力军。

在过去的30年中,计算机硬件技术稳步的、令人吃惊的进步导致了功能强大的和价格可以承受的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信息储存库用于事务管理、信息检索和数据分析。


图1-1 数据库系统技术的演变

现在,数据可以存放在很多不同类型的数据库和信息储存库中。最近出现的一种数据储存库的系统结构是数据仓库(见1.3.2节)。这是一种多个异构数据源在单个站点以统一的模式组织的储存库,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,但对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其他数据分析工具。此外,还可以在数据库和数据仓库之外收集大量数据。典型的例子包括万维网和数据流,其中正如视频监视、电信和传感器网络等应用中那样,数据像流一样流进和流出。这种不同形式的数据的有效性和有效分析成为一项具有挑战性的任务。

数据丰富加上对强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。快速增长的海量数据收集、存放在大型和大量数据储存库中,没有强有力的工具,理解它们已经远远超出了人的能力(见图1-2)。结果,收集在大型数据储存库中的数据变成了“数据坟墓”—难得再访问的数据档案。这样,重要的决策常常不是基于数据储存库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,当前的
专家系统技术通常依赖用户或领域专家人工地将知识输入知识库。遗憾的是,这一过程常常有偏差和错误,并且耗时和费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务策略、知识库、科学和医学研究做出巨大贡献。正在扩大的数据和信息之间的裂口呼唤系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。



图1-2 我们的数据丰富,但信息贫乏
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP