免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5360 | 回复: 10
打印 上一主题 下一主题

[金融] 海量数据分析的源数据怎么来? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-05-20 19:56 |只看该作者 |倒序浏览
刚加入这个行业,金融行业的核心数据一般都是交易产生的吧,那这些数据一般会在存储上保存几份啊,如果这些交易的数据同时要做统计分析怎么办?是在同一份数据存储上做呢,还是要复制或抽取出来做啊,如果要5、6TB的海量数据复制或抽取很慢的呀。

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
2 [报告]
发表于 2008-05-20 20:30 |只看该作者
生产->历史->历史数据卸载入库->数据分析。
我接触过几个是这样的,备份几份这个没多大关系吧

论坛徽章:
0
3 [报告]
发表于 2008-05-20 20:37 |只看该作者
备份几个是没多大关系,只是时间窗口的问题,现在都有人建议有磁盘阵列级的复制技术,不知道有没有这样做的。

论坛徽章:
0
4 [报告]
发表于 2008-05-20 20:40 |只看该作者
原帖由 dlms 于 2008-5-20 20:30 发表
生产->历史->历史数据卸载入库->数据分析。
我接触过几个是这样的,备份几份这个没多大关系吧

还有,您说的历史数据卸载入库不知道具体应该怎么实现,最近我们实现的几个系统都忽略了这一点,是将历史数据迁移到别的数据库中,在清除当前库的历史数据吗?是要定期将生产库的数据导入历史库吗?这个导入的过程一般是自动作业吗?

[ 本帖最后由 zizaza 于 2008-5-20 20:42 编辑 ]

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
5 [报告]
发表于 2008-05-20 20:50 |只看该作者
生产备份历史是日终的时候自动完成的。一般是三个帐务日期一备份(有的业务要支持隔日冲正)。
关于怎么备份,我接触大点的行的都是用工具(商业工具),小行写程序了。

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
6 [报告]
发表于 2008-05-20 20:56 |只看该作者
历史数据卸载入库,这个其实数据量也不是很大,第一次要很大,其余每天可以抽取增量数据。几十个G就算大的了吧。
统计数据报表展现一般都不要求实时的,就是说我可能看三天之前的或者一周之前的数据。很多厂家提供些商业的数据仓库工具都可以做历史数据卸载入库(传说效率很高,我也没有具体测试过,但是肯定比写程序要方便些),具体您说的磁盘阵列备份这个没有接触过。

论坛徽章:
0
7 [报告]
发表于 2008-05-20 21:41 |只看该作者
原帖由 dlms 于 2008-5-20 20:50 发表
生产备份历史是日终的时候自动完成的。一般是三个帐务日期一备份(有的业务要支持隔日冲正)。
关于怎么备份,我接触大点的行的都是用工具(商业工具),小行写程序了。


您指的这个备份不是veritas、TSM之类的磁带备份吧?
如果历史数据卸载了,那怎么查历史啊?

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
8 [报告]
发表于 2008-05-21 08:50 |只看该作者
原帖由 zizaza 于 2008-5-20 21:41 发表


您指的这个备份不是veritas、TSM之类的磁带备份吧?
如果历史数据卸载了,那怎么查历史啊?

这个怎么跟你说呢。。。你是要做ETL吗?如果是你只需要关心核心给你什么数据就好了。磁带备份这个肯定是有的,这个跟你好像关系不大吧。就好像我有台pc,每天都有新的文档,我每天喜欢把c盘的东西拷贝到D盘一份,然后在刻录张光盘。别人可能也需要我的文档,我共享出D盘这些数据,对方需要什么就拷贝什么好了。

论坛徽章:
0
9 [报告]
发表于 2008-05-21 15:56 |只看该作者
其实这个问题的起因是因为我们的生产数据由一个数据库管理,而不同的业务部门都需要利用基本上是全量的生产数据做分析生成数据产品,而生产库的压力肯定是无法满足这些业务部门的全部需要的,而且如果都拿生产库做分析,肯定无法保证生产的效率,因此,最近业务部门提出的几个需求都需要抽取生产数据,这样每个需求可能对应的技术实现都要各抽取出一个库,现在已经有三个技术现实都计划这样做了,这样生产数据就会有四份了,如果以后有更多的部门提出这样的需求,数据冗余会更多,是不是业界有比较成熟的解析办法啊。

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
10 [报告]
发表于 2008-05-21 16:49 |只看该作者
首先生产环境肯定是有两个库的,一个是正常的库一个是历史库。这个毋庸置疑,如果你们就一个数据库。。。那你们行营业一年以后,数据量会大的惊人。每天操作这个库的效率是很低的。几年后是个什么情况。。。难以想想

其次不管几个部门,不管数据源多是少(核心生产、卡帐务、卡前置、中间业务前置。。。渠道),我只需要有一个做数据分析的前置机就好了,日终的时候需要下载那个环境那张表的数据,直接用工具(或者自己写程序传到这台前置就好了),这个过程叫数据落地。数据展现完全是在操作这台机器好了。

关于你们都是用全量数据,这个好像没问题吧。你第一次抽取全量在这台前置机上,其余每天抽取增量数据就好了,你多少个业务部门需要展现多少张表,操作的都是你这台数据分析的前置机的库,与生产完全没有关系。

另外你们如果想做个简单的东西,自己写脚本程序抽取数据处理展现就好了。如果想做个大型的数据仓库,最好找个成熟的产品(说实话我觉得这个东西比较骗钱)。目前金融行业里面做的最好的是NCR和IBM。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP