- 论坛徽章:
- 0
|
原帖由 cx6445 于 2008-6-25 13:27 发表 ![]()
TB或PB级的数据?用map-reduce的模型可以吗?
说到数据分析, 不得不提目前世界非常热门的OLAP及data mining技术. 这些技术都建立在数据仓库体系之上.
而目前世界上最大的数据仓库, 由沃尔码建立, 号称数据量达到了PB级别. 而数据挖掘技术的出现及首先应用, 就是IBM常讲的"啤酒与尿布"的故事,也是来自于该公司的应用案例.
也许很多人都知道,但偏偏有一些人不知道的事实, 就是该数据仓库恰恰是建立在关系型数据库之上的--NCR的Teradata数据库! 这也是目前世界上数据规模案例最高记录保持者.
目前数据仓库的存储模式发展,分为两种方向,一种是MOLAP,其本质是文件系统,另一种是ROLAP,其本质是关系型数据库. 而事实上,真正能够承担TB级以上数据量,而且能够支持10维以上数据模型的,只有ROLAP. 不过, 好的ROLAP数据库与常规的关系型数据库是不同的,它提供了针对OLAP的大量新技术,比如按列存储,位图索引,static表,中间汇总表自动生成及上下钻取操作的支持等,在这种数据库上进行海量数据的实时统计,性能比传统关系型提高数十倍. 至今为止,优秀的ROLAP关系型数据库有ncr的teradata, sysbase IQ, informix red brick.
至于某些人坚持认为可以在文件系统上建立数据仓库, 那还是拿出案例,拿出数据对比再说吧. |
|