免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234
最近访问板块 发新帖
楼主: chinafenghao
打印 上一主题 下一主题

MySQL版《一周一议》之基于mysql的DW(数据仓库)/BI(商务智能)解决方案(积分已转账) [复制链接]

论坛徽章:
0
31 [报告]
发表于 2012-11-27 13:59 |只看该作者
闲聊几句
数据仓库技术ETL层面,
1. ETL中E,对于异构的数据源, 最好通过配置驱动的方式,来完成异构数据源,同构数据源的抓取
     eg:
           数据源,可能是文本,mysql , oracle , mssql等,  开发一个抓取的通用module, 配置对应的数据源module, 集中存放抓取业务[具体选数据业务]的配置,
    如果抓取的数据源有上百,上千个,则需要独立出来一个任务并发控制module
2. ETL中T, 对于抓取过后的源数据,通过配置转换模块的方式,完成对数据的转换
    紧跟上一步, 同步过来的数据源进行转换,可能某些字段需要做类型转换,加密,解密之类的,如果没有转换,这一步可以跳过
3. ETL中的L,L实效性要求还是比较高的,如果是mysql系列的,基本上会采用Load data infile 的方式

在上面步骤中, 因为上面每一个错误都会最终影响到统计的结果的正确性, 每一步都需要增加执行状态描述,以及为后期数据自动修补提供基础

难点:    数据统计任务的依赖, 以及数据错误自动修补的问题, 需要hard coding

经过ETL后,后面可能会有下面的一些问题
1. 模型表的建立
2. 数据分层
3. 数据的存放粒度
4. 备份策略

难点: 业务的全面了解

评分

参与人数 1可用积分 +5 收起 理由
chinafenghao + 5 赞一个!

查看全部评分

论坛徽章:
8
CU大牛徽章
日期:2013-09-18 15:20:48CU大牛徽章
日期:2013-09-18 15:20:58CU大牛徽章
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大牛徽章
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
32 [报告]
发表于 2012-11-27 15:12 |只看该作者
@hunter_search

看来这位哥们是应该接触DW比较多,分析的很详细。

论坛徽章:
1
未羊
日期:2013-10-18 11:47:51
33 [报告]
发表于 2012-12-03 00:40 |只看该作者
DW也就是E(抽取)T(转换)L(加载)
广义上、MySQL应该也支持才是

论坛徽章:
0
34 [报告]
发表于 2012-12-11 18:06 |只看该作者
我们Mysql version: 5.1.47 对的myisam也支持分区,hash分区也可以的(比如Unix的时间戳)
laputa73 发表于 2012-11-23 08:32
回复 25# hero--008
myisam类型也可以支持分区了么?
除了按时间,可以按其他字段hash分区么

论坛徽章:
0
35 [报告]
发表于 2012-12-11 18:08 |只看该作者
我们的mysql现在主要是采集的一些Log日志,按照操作时间做的范围分区 每天一分区
shang2010 发表于 2012-11-23 14:55
@hero--008

能谈一下你们mysql业务是怎么做分区的么??
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP