免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 南半球
打印 上一主题 下一主题

要换工作了,感谢CU!!感谢萧湘雨夜,innovate511 大法师的帮助与建议 [复制链接]

论坛徽章:
0
61 [报告]
发表于 2006-05-10 22:05 |只看该作者
511的专业能力很强,向你学习

论坛徽章:
1
射手座
日期:2013-09-30 15:24:05
62 [报告]
发表于 2006-05-10 22:26 |只看该作者
不错,都看完了,继续努力!

论坛徽章:
0
63 [报告]
发表于 2006-05-10 23:07 |只看该作者
一天没上网,回了这么多帖子.这两天实在忙,有时间可以整理一下,自己的经历和感想,给刚毕业的朋友

高技术无论做哪个方向都要专进去就有出路
做网站开发,
做行业软件开发,电信,金融,管理软件,工作流等等
做嵌入式开发
做系统工程师
做DBA
做咨询顾问ERP,CRM
无论哪个方向,只要自己入门了,专一做下去都会有成绩.
很重要一点就是不仅要专技术,要技术和业务结合.
就连网站开发也要强调技术也业务结合强调技术与产品策划的沟通能力.这样你才能做到更高的层次.

论坛徽章:
0
64 [报告]
发表于 2006-05-10 23:08 |只看该作者
从职业发展上,分为:
一, 做职业人士,做某一行业的专业人士 ,做职业经理人
二,将来自己创业做老板.
认准自己目标后就要想法给自己积累资力,资源.坚持不懈达到自己的目标
临走时,与老板一席话才知道他从最初有了创业自己开公司的想法,到现在做到几千万的销售额的公司
其间花了将近10年,用了将近5年积累他的资源,5年做公司才做到现在.
我彻底明白了什么叫10年磨一剑
做老板尚且如此,何况做技术呢.所以任何成功都不是偶然的.所以我佩服那些在网易,百度等门户干了5年以上的老员工.人贵在坚持.
我说的是普通人的情况.至于当年空中网的老板这样的3年把公司做到纳斯达克上市的人.我不评价
我说的情况是普通人可以通过努力实现的情况.

论坛徽章:
4
金牛座
日期:2014-08-21 12:58:152015年辞旧岁徽章
日期:2015-03-03 16:54:152015亚冠之本尤德科
日期:2015-05-22 00:05:18数据库技术版块每日发帖之星
日期:2015-06-23 22:20:00
65 [报告]
发表于 2006-05-10 23:36 |只看该作者
原帖由 raullew 于 2006-5-10 18:25 发表
你说的中间过度层是指什么?
我们都是平面文件ETL到db里面的

imhoff是个搞crm和bi咨询的
她写了本书,主要是把Inmon的关系方法和Kimball的维表方法结合起来

看来她没有做过架构, 但对业务模型非常熟悉.

我做过1年的数据源自CRM的大型项目,普通制造业的CRM到数据仓库的业务模型其实不是很复杂,只是目前制造业目前不象电信行业那样有比较统一的规范,而是不同客户有一套自己的规范,这点很需要经验.

所谓中间层,就是你把文件倒入DB后, 并不能一步就把数据转换到理想的模型中去,而是通过中间1到多步中间层逐一实现.因为分析模型中,业务的需求是复杂的,多变的,你的模型必须包含足够多的信息,并且能适应客户反复多变的需求,一步到位的ETL,我刚入门时就做过.后果就是:客户需求一变化,后台表结构要变化,模型可能也要变化,需要增加表,甚至出现数据误差,你还得到处核对数据,看哪里出问题了.这是比较原始的,纯靠类似数据集市来支撑的系统,根本不能适应现代多变,业务需求暴增,数据量越来越大的严峻形式.

增加中间层后,他就类似软件中的中间件,主要ETL工作在中间层中完成,在他和原始数据之中加入Kimball经常使用的代理键作为连接原始数据的桥梁,中间层完成后,就把数据倒入我们理想的数据集市模型中去.所以中间层是至关重要的,这个和软件工程极为相似,它可以因为数据量大而把数据根据数据库的特点分区\分表灵活处理,大大加快ETL效率,也可以灵活增加字段,增加潜在业务的信息,这样不需要前端工具去完成.前端工具就类似于我们软件工程的展现层,如果把很多业务处理拿到展现层处理,效率和扩展性会非常糟糕.

这些设计必须要通晓数据仓库的架构设计和模型才能得出. 否则只好按照原始方法,建一个模型后,想办法把数据ETL到模型里了事,至于那样如何确保效率和扩展性,可能设计者自己也不太清楚.

论坛徽章:
0
66 [报告]
发表于 2006-05-11 00:30 |只看该作者

回复 65楼 innovate511 的帖子

她和Inmon合写了CIF一书,提出了CIF的概念,不可能没做过架构

如果你说的中间层是指这个的话(如果我没理解错)
我们的平面文件跟维表完全不同的
可能商品的分类只有一两个excel,但到商品维表则有5,6个雪花
那张最大的维标就通过小维表来清洗数据

至于大表,那是先扔到temp table里面再通过存储过程处理为需要的事实表
这个主要是基于etl速度的考虑,比etl工具快
而且根据事实表的表结构(比如既需要组织成这样的事实表又需要组织成那样的事实表)想怎么处理就怎么处理

有一个问题倒是:
大表的索引导致倒入速度大大减慢,你们怎么处理的?
尤其是,假如还要判断是否是更新记录?(生产系统不让加trigger)这时候删索引也不是不删也不是。。。

论坛徽章:
4
金牛座
日期:2014-08-21 12:58:152015年辞旧岁徽章
日期:2015-03-03 16:54:152015亚冠之本尤德科
日期:2015-05-22 00:05:18数据库技术版块每日发帖之星
日期:2015-06-23 22:20:00
67 [报告]
发表于 2006-05-11 01:07 |只看该作者
呵呵,你没说清楚,我以为给你们一个数据集市模型就完事了呢.

是的,大表不可能直接ETL,需要中间层去处理. 一般来说,数据仓库前期是不应该建立很大的事实表的,就象你说的,处理起来会很慢.而大表应该是针对主题而产生的产物,所以大表里保留的数据周期不应该太长,多余的扔给合成大表之前的事实表对应的历史表.这样就大大减小了大表的数据流动问题.同时注意利用数据库的工具,比如DB2的LOAD比IMPORT要快很多.

至于trigger问题,数据库不让用,你们考虑过操作系统里设置呢?要知道,数据流动的本质是文件嘛,直接由操作系统环境里控制.

论坛徽章:
4
金牛座
日期:2014-08-21 12:58:152015年辞旧岁徽章
日期:2015-03-03 16:54:152015亚冠之本尤德科
日期:2015-05-22 00:05:18数据库技术版块每日发帖之星
日期:2015-06-23 22:20:00
68 [报告]
发表于 2006-05-11 10:48 |只看该作者
除了上述的之外,参考表和控制表也比较重要。他们能帮助你更好控制数据质量。

论坛徽章:
0
69 [报告]
发表于 2006-05-11 11:19 |只看该作者

回复 68楼 innovate511 的帖子

今天有点事
回家整理一下思路再聊:)

论坛徽章:
0
70 [报告]
发表于 2006-05-11 20:11 |只看该作者
有心却没有机会啊,机会其实很重要,如果两个一样水平的人,机会很重要。
技术好坏只要不是相差很大真的感觉一点都不重要,只要你给公司完成任务,不会关心你技术好不好,代码效率高不高

不知道怎么办,还得生活,也不能太随意了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP