1 2 3 4 5 678 / 8 页下一页

要换工作了,感谢CU!!感谢萧湘雨夜,innovate511 大法师的帮助与建议 [复制链接]

newscar21

白手起家

论坛徽章:: 0

61楼 [报告]

发表于 2006-05-10 22:05 |只看该作者

511的专业能力很强,向你学习

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dlms

版主

论坛徽章:: 1

62楼 [报告]

发表于 2006-05-10 22:26 |只看该作者

不错，都看完了，继续努力！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

南半球

稍有积蓄

论坛徽章:: 0

63楼 [报告]

发表于 2006-05-10 23:07 |只看该作者

一天没上网,回了这么多帖子.这两天实在忙,有时间可以整理一下,自己的经历和感想,给刚毕业的朋友

高技术无论做哪个方向都要专进去就有出路
做网站开发,
做行业软件开发,电信,金融,管理软件,工作流等等
做嵌入式开发
做系统工程师
做DBA
做咨询顾问ERP,CRM
无论哪个方向,只要自己入门了,专一做下去都会有成绩.
很重要一点就是不仅要专技术,要技术和业务结合.
就连网站开发也要强调技术也业务结合强调技术与产品策划的沟通能力.这样你才能做到更高的层次.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

南半球

稍有积蓄

论坛徽章:: 0

64楼 [报告]

发表于 2006-05-10 23:08 |只看该作者

从职业发展上,分为:
一, 做职业人士,做某一行业的专业人士 ,做职业经理人
二,将来自己创业做老板.
认准自己目标后就要想法给自己积累资力,资源.坚持不懈达到自己的目标
临走时,与老板一席话才知道他从最初有了创业自己开公司的想法,到现在做到几千万的销售额的公司
其间花了将近10年,用了将近5年积累他的资源,5年做公司才做到现在.
我彻底明白了什么叫10年磨一剑
做老板尚且如此,何况做技术呢.所以任何成功都不是偶然的.所以我佩服那些在网易,百度等门户干了5年以上的老员工.人贵在坚持.
我说的是普通人的情况.至于当年空中网的老板这样的3年把公司做到纳斯达克上市的人.我不评价
我说的情况是普通人可以通过努力实现的情况.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

innovate511

广告杀手

论坛徽章:: 4

65楼 [报告]

发表于 2006-05-10 23:36 |只看该作者

原帖由 raullew 于 2006-5-10 18:25 发表
你说的中间过度层是指什么?
我们都是平面文件ETL到db里面的

imhoff是个搞crm和bi咨询的
她写了本书,主要是把Inmon的关系方法和Kimball的维表方法结合起来

看来她没有做过架构, 但对业务模型非常熟悉.

我做过1年的数据源自CRM的大型项目,普通制造业的CRM到数据仓库的业务模型其实不是很复杂,只是目前制造业目前不象电信行业那样有比较统一的规范,而是不同客户有一套自己的规范,这点很需要经验.

所谓中间层,就是你把文件倒入DB后, 并不能一步就把数据转换到理想的模型中去,而是通过中间1到多步中间层逐一实现.因为分析模型中,业务的需求是复杂的,多变的,你的模型必须包含足够多的信息,并且能适应客户反复多变的需求,一步到位的ETL,我刚入门时就做过.后果就是:客户需求一变化,后台表结构要变化,模型可能也要变化,需要增加表,甚至出现数据误差,你还得到处核对数据,看哪里出问题了.这是比较原始的,纯靠类似数据集市来支撑的系统,根本不能适应现代多变,业务需求暴增,数据量越来越大的严峻形式.

增加中间层后,他就类似软件中的中间件,主要ETL工作在中间层中完成,在他和原始数据之中加入Kimball经常使用的代理键作为连接原始数据的桥梁,中间层完成后,就把数据倒入我们理想的数据集市模型中去.所以中间层是至关重要的,这个和软件工程极为相似,它可以因为数据量大而把数据根据数据库的特点分区\分表灵活处理,大大加快ETL效率,也可以灵活增加字段,增加潜在业务的信息,这样不需要前端工具去完成.前端工具就类似于我们软件工程的展现层,如果把很多业务处理拿到展现层处理,效率和扩展性会非常糟糕.

这些设计必须要通晓数据仓库的架构设计和模型才能得出. 否则只好按照原始方法,建一个模型后,想办法把数据ETL到模型里了事,至于那样如何确保效率和扩展性,可能设计者自己也不太清楚.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

raullew

小富即安

论坛徽章:: 0

66楼 [报告]

发表于 2006-05-11 00:30 |只看该作者

回复 65楼 innovate511 的帖子

她和Inmon合写了CIF一书，提出了CIF的概念，不可能没做过架构

如果你说的中间层是指这个的话（如果我没理解错）
我们的平面文件跟维表完全不同的
可能商品的分类只有一两个excel，但到商品维表则有5，6个雪花
那张最大的维标就通过小维表来清洗数据

至于大表，那是先扔到temp table里面再通过存储过程处理为需要的事实表
这个主要是基于etl速度的考虑，比etl工具快
而且根据事实表的表结构（比如既需要组织成这样的事实表又需要组织成那样的事实表）想怎么处理就怎么处理

有一个问题倒是：
大表的索引导致倒入速度大大减慢，你们怎么处理的？
尤其是，假如还要判断是否是更新记录？（生产系统不让加trigger）这时候删索引也不是不删也不是。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

innovate511

广告杀手

论坛徽章:: 4

67楼 [报告]

发表于 2006-05-11 01:07 |只看该作者

呵呵,你没说清楚,我以为给你们一个数据集市模型就完事了呢.

是的,大表不可能直接ETL,需要中间层去处理. 一般来说，数据仓库前期是不应该建立很大的事实表的,就象你说的,处理起来会很慢.而大表应该是针对主题而产生的产物,所以大表里保留的数据周期不应该太长,多余的扔给合成大表之前的事实表对应的历史表.这样就大大减小了大表的数据流动问题.同时注意利用数据库的工具,比如DB2的LOAD比IMPORT要快很多.

至于trigger问题,数据库不让用,你们考虑过操作系统里设置呢?要知道,数据流动的本质是文件嘛,直接由操作系统环境里控制.