Chinaunix

标题: 数据仓库(DW),商业智能(BI)与数据挖掘(DM) [打印本页]

作者: innovate511    时间: 2008-09-13 23:19
标题: 数据仓库(DW),商业智能(BI)与数据挖掘(DM)
感觉CU初入门或对这些很不了解的朋友还是很多,有必要简单介绍下其核心关联和区别。

严格地来说,DW/BI/DM在一个企业的应用中是融在一起,甚至一个大项目中进行的。但从系统的角度来说,就有微妙的关系了,不过要了解其本质,无论你怎么分,那也不会范晕。

数据仓库从系统角度来看,就是数据库为核心的后台系统,绝大多数项目中,它是BI/DM应用的基础数据平台,同时也是数据管理平台,于是有的企业将其功能扩大化,加入了新的技术理念,于是称之为数据中心。一般从业务角度来看,企业的数据中心不但为BI服务,还有企业数据质量管理、主数据管理、数据交互平台等多功能。

BI从广泛的角度来看,往往包含了后台数据仓库系统,以及高级BI应用DM。而我们将DW和DM单独谈论之后,我们常说的狭义BI就仅仅是统一定义和统一平台的报表平台和多维分析平台了。

DM从广义角度来看,报表分析出来的粗略结果,OLAP分析出来的结果,也可以成为数据挖掘。不过狭义的DM当然是通过专业工具用某种算法来演算出一个结论来。不过目前多数应用在算法理论阶段,其实喜欢这个方向的朋友大可多研究算法在实际分析的应用,而非理论算法,这样才是目前企业最急需的东西。从DW的角度来看,会在数据集市为DM准备好数据,往往是数百个维和度量一起提供给DM去演算,才能得出可能符合需求的结果。
作者: WFCJZ    时间: 2008-09-14 08:38
谢楼主,对这方面真得需要,但不了解!
作者: ly5066113    时间: 2008-09-14 10:14
现在能真正意义上做 数据挖掘(DM) 的应该是极少数吧,绝大部分 数据仓库(DW) 都还在建设中。
我觉得DM应该换成另一个概念 数据集市(Data Mart),因为这个应用的还是比较多的。
作者: innovate511    时间: 2008-09-14 19:06
原帖由 ly5066113 于 2008-9-14 10:14 发表
现在能真正意义上做 数据挖掘(DM) 的应该是极少数吧,绝大部分 数据仓库(DW) 都还在建设中。
我觉得DM应该换成另一个概念 数据集市(Data Mart),因为这个应用的还是比较多的。

数据集市没谁会拿来专门做一个独立的系统,都是DW的一部份,只是不同的架构版本将DM和DW的关系和作用定义不同而已。数据集市必定是相对独立的数据集,独立搞的话,离企业级DW/BI的要求相差太大。只不过有的企业短期内是某些业务部门内部自己在做数据集市,但这种状态毕竟是过渡的短暂阶段。
作者: ly5066113    时间: 2008-09-15 11:36
原帖由 innovate511 于 2008-9-14 19:06 发表

数据集市没谁会拿来专门做一个独立的系统,都是DW的一部份,只是不同的架构版本将DM和DW的关系和作用定义不同而已。数据集市必定是相对独立的数据集,独立搞的话,离企业级DW/BI的要求相差太大。只不过有的企 ...


2. Kimball派,所谓至底向上(Bottom up),也就是先针对主题应用,建设维度模型的数据仓库,而多个多维模型应用用总线逻辑架构形成数据仓库架构。这样做能最快满足客户的BI需求,但缺点是架构不容易建设稳固。

这种一般就是以建集市为主的,多个集市拼起来,有些人也称之为仓库。
DW,DM无非一个是企业级,一个是部门级。有些企业DW也是从DM建设开始的,当作视点,然后在推广。
作者: innovate511    时间: 2008-09-15 18:35
原帖由 ly5066113 于 2008-9-15 11:36 发表


2. Kimball派,所谓至底向上(Bottom up),也就是先针对主题应用,建设维度模型的数据仓库,而多个多维模型应用用总线逻辑架构形成数据仓库架构。这样做能最快满足客户的BI需求,但缺点是架构不容易建设稳 ...

Kimball在书中好象并没说明多个数据集市如何具体实现BUS Matrix Architecture,而实际项目中会以多维数据仓库为DM服务,虚拟DW很难在物理上控制DM之间的一致性和数据管理。所以实际应用中,往往更多地是先建DM,然后反推回多维数据仓库,既而为多个DM服务,然后企业再发展可能建设EDW。

所以光讨论DM,好象没啥意义,没架构思想。
作者: betty07190409    时间: 2008-11-17 10:26
标题: 各位技术高手,有没有对数据库售前职位感兴趣的啊
各位技术高手,有没有对数据库售前职位感兴趣的啊
作者: penknife    时间: 2008-11-20 13:34
是不是 可以片面的 把一个业务系统当做一个数据集市?
作者: innovate511    时间: 2008-11-20 22:22
业务系统本身不能作为数据集市,OLTP系统的物理设计和OLAP的物理设计优化点有所不同,况且数据集市主流思想OLAP是多维模型思想。

从业务的角度看,一种业务系统本身是说明一个业务问题,而数据集市是反映一个大的分析主题,所以有时候业务上,业务系统的业务体并不完全等于 数据集市业务体。
作者: mgl01xm    时间: 2008-11-21 22:54
不错!很详细
http://www.benfen.com
你可以用在线备份软件给你的数据备份
它不仅能好的解决你所提到的问题,加之它本身所具有的本地和异地都可备份的功能更会让您安全简单的进行各种数据,数据库及系统的备份。
免费下载----
PC V2.0:
http://www.crsky.com/soft/13698.html
服务器 V2.0
http://www.crsky.com/soft/13699.html
同时您也会免费得到两个版本的破解版
作者: jessi01    时间: 2008-12-09 17:52
标题: 猎头职位:PM-数据仓库
联系方式:MSN:Jessi.wj@hotmail.com
               E-Mail:jessi@intouch-consult.com

大家可以加我msn 详谈,也可以直接发简历到邮箱,我会和大家及时联系的,谢谢!

1,        深刻理解数据仓库技术和数据仓库实施方法论;

2,       3-5年项目管理经验,有扎实的项目管理理论知识和丰富的经验心得,能够很好的控制项目

3,       熟悉软件工程和软件过程的规范化,在需求分析、计划制定、风险控制等项目管理方面有丰富的经验。

4,        熟悉银行业务,并具银行业4年以上数据仓库项目实施经验;

5,        熟悉NCR银行业LDM模型和Teradata开发环境,并具至少2  年以上相关开发或应用经验;

6,        熟悉UNIX(AIX)/C/PERL/SHELL开发环境,并具该环境3年以上实施经验;熟悉主流数据库(DB2/ORACLE/INFORMIX等)中的一种或多种
作者: RNW    时间: 2008-12-10 13:46
原帖由 innovate511 于 2008-9-14 19:06 发表

数据集市没谁会拿来专门做一个独立的系统,都是DW的一部份,只是不同的架构版本将DM和DW的关系和作用定义不同而已。数据集市必定是相对独立的数据集,独立搞的话,离企业级DW/BI的要求相差太大。只不过有的企 ...



请教:
数据集市和数据仓库的区别在哪里呢?
作者: innovate511    时间: 2008-12-10 22:22
数据集市和数据仓库在网上已有大量的定义和介绍,以及他们的区别。

这里我只简单谈下我的感受,数据集市在建模方式上肯定是维度模型,而数据仓库方面,不一定是,而且很多项目是近3范式建模。从功能来看,数据集市一定是面向BI应用的,而数据仓库不一定,而且多数情况下,数据仓库并不直接被BI访问。从架构上来讲,数据仓库面向数据,有足够大的历史数据,尽量不丢失数据。而数据集市面向信息,数据集市往往是转换、汇总后的数据,被称之为信息,所以不可反转,不可反推回原始数据,所以面对不同的应用,往往是多个数据集市各自满足。所以从关系来讲,数据仓库为多个数据集市服务数据,如果数据仓库是维度模型,那么这个维度模型设计的粒度一定要低,基础指标一定要全面。

当然还有很多很多,最关键的是,数据仓库的目的是建设数据基础,也有人称为企业信息仓库,而数据集市的目的是BI应用,面向企业用户各种查询和分析需求。
作者: hero--008    时间: 2008-12-12 23:42
基本上同意511老师的说法,但从资料上看及个人的感觉数据集市不应该仅仅保留汇总后的数据,原子细节数据有时还是必要的,有时也正是为了反转,为了增量的处理保留明细还是很有必要.
作者: innovate511    时间: 2008-12-13 23:10
细节数据和低粒度有着本质的区别,细节数据是未维度化的数据,和业务系统结构相仿,而低粒度是维度化数据,仅适合分析、计划等。

而数据集市在绝大多数项目中,是选择以低粒度逐步汇总到高粒度的方式,来满足用户的查询功能,如果用户要查询OLTP层面的细节数据,一则可以OLTP系统直接查,如果大规模查询,二则可以选择数据仓库,或ODS查询,这取决于数据仓库整体架构设计,以及权限管理策略。

之所以数据集市很少存储最细节数据,原因有如下几点:
1. 仿OLTP细节数据存储,与维度模型建模思想和方式大为不同,建在一个数据用户里,实在难以管理。当然,如果你将细节数据理解为最低粒度数据,那么理解可能有所偏差,因为最低粒度数据也是汇总数据。
2. 数据集市没有必要和数据仓库保有同样的功能,对系统投资要求过大,如果用户有类似需求,无论ODS和EDW都可以满足细节查询,就看具体情况而定。
3. 从方法论来看,增量数据最常见的是时间戳和即时增量抽取,在ETL过程中一般止于数据仓库。而到维度模型中,刷新以业务周期或周期与某业务主体联合刷新为主,与EDW刷新机制有着本质区别,所以增量数据一般来说与数据集市没有关系,除非数据集市本身已和数据仓库功能划等号。

以前我写过关于长远规划、灵活的具体设计的文章,架构复杂与否在于功能是否有需求,功能是否有需求在于企业具体需求。在目前已有的复杂情况,可能需要(STG)ODS-(STG)EDW-CDW(客户化维度数据仓库)-N多DM,其中每一个主层还可以有具体分工,来满足各种已有的、未知的需求。
作者: 神呐救救我    时间: 2009-02-03 14:05
要看是金博尔还是因蒙流派
作者: innovate511    时间: 2009-02-03 20:06
实际项目中,不少是兼用两者的长处,从本质上来说,2者并没有矛盾,一者是从企业级信息中心的角度看,一者主要面向OLAP等分析应用,所以等数据仓库的看法有所不同,但很多本质性的东西,都有相当多优点可以学习。
作者: Stout    时间: 2009-03-04 15:21
数据仓库




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2