免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3308 | 回复: 6
打印 上一主题 下一主题

数据仓库初探 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2003-08-03 17:23 |只看该作者 |倒序浏览
随着企业数据量的增多
数据仓库技术也开始在国内使用

以下是它的一篇介绍

数据仓库初探

 
  摘要:作为数据库技术的一个新的发展方向,BW技术与DB技术的结合产生的集成、一致的环境,将使企业在决策中更快地获得更准确的信息。本文着重阐述了数据仓库的基本概念、特征和体系结构,并介绍了使BW作用得以发挥的决策支持工具。
    关键词:数据仓库 体系结构 决策支持工具



Abstract: As a new progressing direction of database technology,the combination of DW technology and DB technology leads to a integrated and consistent environment ,which makes it faster for enterprises to avail precise information during making decisions . In this paper , the basic conceptions and characters of DW are introduced .It summarizes and expands the architecture of DW . It also introduces decision supporting implementations , which guarantee the effect of DW .


Keyword: Data Warehouse , Architecture of Data Warehouse,Decision Supporting Implementation

论坛徽章:
0
2 [报告]
发表于 2003-08-03 17:23 |只看该作者

数据仓库初探

1 引言
   
    在市场经济的激烈竞争中,企业必须把业务经营同市场需求联系起来,在此基础上作出科学、正确的决策,以求生存。为此,企业纷纷建立起了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存贮、管理业务操作数据,改善办公环境,提高操作人员的工作效率。然而,传统的数据库应用系统并不能很好地支持决策。由于传统的数据库应用系统是面向业务操作设计的,简化了具体操作人员的劳动强度,而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数据库系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从业务数据中提取有用的信息,帮助他们在业务管理和发展上作出即时、正确的判断。数据仓库应运而生,成为信息技术领域非常热门的话题之一。
    数据仓库的目的是要建立一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统,并获取更多经营效益。

论坛徽章:
0
3 [报告]
发表于 2003-08-03 17:25 |只看该作者

数据仓库初探

2 什么是数据仓库

    社会的需求和计算机技术的不断发展,人们开始尝试对原来数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以支持科学决策的产生。由此,数据仓库的思想、技术、产品逐渐开始形成。对于什么是数据仓库,许多人提出了不同的看法。数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:"数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。[1][3][4][5]
    虽然还没有形成统一的定义,但以上观点都或多或少地指出了数据仓库有以下几个特点:数据仓库中的数据是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的,建立数据仓库的目的是为了更好的支持决策的制定。
   
    1)、面向主题
    主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。[1]
    目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。


    2)、集成的数据
数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业作出科学的决策。
    对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。

    。

    3)、数据不可更新
    从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改其中存贮的数据,也就是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的表示提出了很高提出了更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他们是所在领域的专家,但对计算机却不一定熟悉。
    从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查询率低的数据的需要从数据仓库脱离到廉价慢速设备(如磁带)上,对分析处理不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。

    4)、数据随时间不断变化
    数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新,每隔一段固定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,如同"定期摄影术",每隔一周、一月或适当的间隔就照一张像;随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求;当数据超过数据仓库的存储期限,或对分析不在有用时,这些数据将从数据仓库中删去。
    关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必关心数据仓库如何被更新的细节。

    5)、使用数据仓库
    建立数据仓库并不是要取代原有的运作数据库系统,建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮,对这些数据进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息,帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。

论坛徽章:
0
4 [报告]
发表于 2003-08-03 17:28 |只看该作者

数据仓库初探

3 运作型数据与分析型数据应分离

    运作型数据,有时又称为操作型数据、OLTP(联机事务处理)数据、原始数据、初始数据和联机数据;分析型数据有时也称为信息性数据、决策支持数据、导出数据、提取数据和总结数据。
    如下表所示,运作型数据与分析型数据在使用方面有着显著的区别[1]:

                                运作型数据与分析型数据的区别


  1. 运作型数据                 分析型数据

  2. 表示业务处理的动态情况   表示业务处理的静态情况

  3. 在存取的瞬间是正确的     代表过去的数据

  4. 可更新,由录入人员或经   不可更新,终端用户的访问权限常常是只读的
  5. 过专门培训的输入事务而
  6. 更新

  7. 处理细节问题              受到更多关注的是
  8.                           结论性的数据,是综合的,或是提炼的

  9. 操作需求事先可知道,系统  操作需求事先不知道,永远不知道下一步用户要做什么
  10. 可按预计的工作量进行优化  

  11. 有许多事务,每个事务影响  有数目不多的一些查询,每个查询可访问大量数据
  12. 数据的一小部分
  13.   
  14. 对性能要求高               对性能要求宽松

  15. 面向应用,支持日常操作     面向分析,支持管理需求

  16. 用户不必理解数据库,他们   用户需要理解数据库,以从数据中得出有意义的结论
  17. 只是输入数据         

复制代码


    以上比较说明运作型数据和分析型数据之间存在着众多的差别,不应该保存在一起。一个好的运作型数据库不能很好地支持分析决策,一个好的分析型数据库也不能高效地为业务处理服务,因此,应将它们分开,分别组织起运作数据环境和分析数据环境。

论坛徽章:
0
5 [报告]
发表于 2003-08-03 17:34 |只看该作者

数据仓库初探

4 数据仓库基本体系结构

    斯坦福大学"WHPS"课题组提出的一个基本的数据仓库模型如下图所示[3][5]:



使用文本表示的图如下


  1.               客户应用
  2.                  A
  3.                  |
  4.                  V
  5.                集成器
  6.                  A
  7.                  |
  8.     --------------------------
  9.     |            |            |
  10. 监视器        监视器       监视器
  11.     A            A            A
  12.     |            |     ...    |
  13.     V            V            V
  14.    DB            DB           DB

  15. A V表示箭头方向 为了避免原图被删
  16.                

复制代码




    为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:


    数据源,指为数据仓库提供最底层数据的运作数据库系统及外部数据。
    监视器,负责感知数据源发生的变化,并按数据仓库的需求提取数据。
    集成器,将从运作数据库中提取的数据经过转换、计算、综合等操作,并集成到数据仓库中。
    数据仓库,存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。
    客户应用,供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。


    IBM、Oracle、Sybase、Informix、AT&T GIS、SAS Tnstitute、Prism Software等厂商都提出了自己的数据仓库结构。[2]上图精简、提炼出了构成数据仓库的最基本的框架,严格说来,任何一个数据仓库结构都可以从这一基本框架发展而来,实现时往往还要根据分析处理的需要具体增加一些部件。

论坛徽章:
0
6 [报告]
发表于 2003-08-03 17:40 |只看该作者

数据仓库初探

5 使用数据仓库

    数据仓库的建立给用户提供了一个统一、一致的分析环境。可以从数据仓库中进行利润增长分析,了解产品和服务间的关系、利润、产品线等,有利于指导决策,提高效益。将企业保存的信息同统计数据相结合,能更好地了解顾客,包括购买方式、产品包装、服务经验等,市场计划可分割成能带来大量利润并能吸引顾客的形式。执行决策的效果可以通过快速反馈到数据仓库收集的历史数据中而得到加强,造成一种可行的、更新更快的方式,以便更精确、更全面地满足顾客的需求,从而加强顾客与企业的关系,使得与对手的竞争变得更加容易,等等。
    然而,数据仓库的数据量可从几十GB到几百TB,而且还在不断增长,如此庞大的数据量更有可能淹没其中的有用信息。必须为企业提供高效的决策支持工具,让更多的公司管理者能方便、有效的使用数据仓库这一决策环境。
    决策支持工具可以按验证和发现两种方式使用。验证模式中,用户提出一种假设,然后试图通过存取数据仓库中的数据来证明此假设。这类工具包括查询工具、报表系统、多维分析工具。在发现模式中,工具试图发现隐藏在数据中的某种模式,而这种模式用户预先并不知道。数据发掘(Data Mining)工具就是发现模式的一个典型代表。
    从可用工具的角度来看,验证模式和发现模式通常可分成信息处理、分析处理和数据发掘三种方法:

    1)、信息处理
    信息处理支持决策工具的验证模式,帮助用户寻求业务问题的答案,它包含数据分析和基本的统计分析、查询和服务等技术。要存取和处理的数据可以是历史的,也可以是近期的,并可按一定的程度进行综合。其结果以报表和图表的方式给出。
    对于大量的查询调度、分析、二维或三维数据报表,信息处理具有很好的性能,而且成本低。
    2)、分析处理
    分析处理也称多维分析或在线分析处理(OLAP),支持决策工具的验证模式,其目的是:通过提供给用户从多种角度快速、稳定、交互地存取数据,以便深入观察数据。用于分析处理的数据不论是综合形式还是细节形式,都是历史数据。
OLAP的功能结构由数据存储服务、OLAP应用服务、用户描述服务组成的三层客户/服务器结构(如下图所示),[2]复杂的应用逻辑集中存放在应用服务器上,由服务器提供高效的数据存储,安排后台处理及报表的预处理。OLAP服务器设计的重点在于如何组织数据仓库种的综合数据,如何满足前端用户的多维分析。
   
文本表示的图


  1. 数据仓库 |<------------->;  |数据仓库综合数据 | <--------->;  |前端|
  2. 细节数据 |                 |  OLAP服务器     |              |软件|

  3. 企业服务器                  应用服务器                     客户
  4. 共享数据存储                共享局部数据                   最终用户功能
  5. 与基层运作系统连接          共享应用逻辑                   数据显示
  6.                                                            个人数据存储
  7.                                                            个人应用逻辑
  8.                                                             
复制代码






    3)、数据发掘(Data Mining)
    数据发掘支持决策工具的发现模式。数据发掘基于人工智能、机器学习、统计学等技术,高度自动化地分析企业收集的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助决策者调整数据策略,减少风险,作出正确的决策。其结果通常出现在冗长的报告中,也可用可视化工具进行分析。

论坛徽章:
0
7 [报告]
发表于 2003-08-03 17:40 |只看该作者

数据仓库初探

6 展望

    数据仓库和传统数据库系统有着本质的不同,必须采用不同的研究方法。作为一个新兴的研究领域,数据仓库的应用发展很快,已经取得了一些成绩。由于数据仓库是一个新兴的领域,其建设及技术具有很大的复杂性,仍有许多领域需要深入研究。
    目前,我国的数据仓库市场仍处于概念推广的阶段,数据仓库的报道可不断散见于各种文章、媒体广告、厂商宣传资料和展示会。我国企业信息化程度还不高,不少单位的数据库规模还比较小,有些单位甚至还没有完善的数据库系统,数据仓库的应用还处于初级阶段,只是一些银行、保险开始尝试建设数据仓库。
    数据仓库毕竟还是一个新概念,还有许多需要深入研究的工作。


参 考 文 献
[1] 王珊等.数据仓库技术与联机分析处理.科学出版社.1998.6
[2] Harjinder S.GILL等著,王仲谋,刘书丹 译.数据仓库-客户服务器计算指南.清华大学出版社,西蒙与舒斯特国际出版公司.1997.10
[3] 李子木,莫倩,周兴铭.数据库技术的研究现状及未来方向.计算机科学.1998 Vol.25 No.4
[4] 许向东,张全寿.数据仓库与数据发掘的应用.计算机系统应用.1998.4
[5] 练慧萍,杨明福.数据仓库技术及其在电子商务中的应用.微型电脑应用.1998.5



作者:
解 敏(云南师范大学计算机科学系 昆明 650092)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP