免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: arron刘
打印 上一主题 下一主题

[BI] 大家在实施数据挖掘的项目,你们都使用什么工具呢(获奖名单已公布2013-3-14) [复制链接]

论坛徽章:
4
金牛座
日期:2014-08-21 12:58:152015年辞旧岁徽章
日期:2015-03-03 16:54:152015亚冠之本尤德科
日期:2015-05-22 00:05:18数据库技术版块每日发帖之星
日期:2015-06-23 22:20:00
21 [报告]
发表于 2013-01-20 13:52 |只看该作者
为啥还有那么多人说数据挖掘吹牛?你区分用户特征不用挖掘?你评估风险不监控预测一下?

hadoop架构只是数据存储和处理框架,和数据挖掘本身其实没半毛关系,数据挖掘工具目前最常用的还是R,EXCEL,以及matlab,SPSS,SAS等,我觉得工具不是关键,关键还是你输入什么,想输出什么。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
22 [报告]
发表于 2013-01-20 20:29 |只看该作者
Informatica

论坛徽章:
71
15-16赛季CBA联赛之同曦
日期:2018-08-23 15:41:42辰龙
日期:2014-08-15 09:07:43狮子座
日期:2014-06-03 13:55:33亥猪
日期:2014-06-02 11:17:08巨蟹座
日期:2014-05-06 10:02:03午马
日期:2014-05-04 08:18:27亥猪
日期:2014-04-29 11:11:32技术图书徽章
日期:2014-04-24 15:51:26技术图书徽章
日期:2014-04-17 11:01:53辰龙
日期:2014-04-15 12:45:46亥猪
日期:2014-04-11 09:06:23射手座
日期:2014-04-01 15:28:10
23 [报告]
发表于 2013-01-21 13:42 |只看该作者
吹牛是一门学问

论坛徽章:
8
巨蟹座
日期:2013-08-12 09:41:40IT运维版块每日发帖之星
日期:2015-12-09 06:20:00寅虎
日期:2013-12-25 14:59:40天秤座
日期:2013-12-06 14:04:55酉鸡
日期:2013-11-28 10:22:22水瓶座
日期:2013-08-26 15:40:54巨蟹座
日期:2013-08-12 09:42:01每日论坛发贴之星
日期:2015-12-09 06:20:00
24 [报告]
发表于 2013-01-21 14:10 |只看该作者
是滴回复 23# zhaopingzi


   

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:19
25 [报告]
发表于 2013-01-22 15:14 |只看该作者
zhaopingzi 发表于 2013-01-21 13:42
吹牛是一门学问


     强烈同意,吹牛是一门大大的学问,营销业绩就是考验每个人吹牛的水平,不是简单说牛话就有人会买你的产品,必须经过全方面的市场数据挖掘和分析,知道把什么参数说的定位在哪个范围以内是营销效果最好的!这种学问比单纯的定位函数参数的IT技术人员所掌握的技术更加强大!做好了这个产品定位,打开了市场,是任何老板的最爱,也是数据挖掘分析要的最终效果!

     传统观念总认为做硬技术的才叫技术,其实这种能把握吹牛方式和程度的伪技术才是真正的大牛!这些也离不开数据挖掘和分析!尺度把握很关键,长时间的积累就对了!
     
    呵呵,很抱歉!把吹牛和数据挖掘分析扯一起了。

论坛徽章:
0
26 [报告]
发表于 2013-01-22 21:54 |只看该作者
1.大家在实施数据挖掘的项目,你们都使用什么工具呢?
数据挖掘的工具主要分为两大类:一类是独立的工具,这类工具又可以分为商业软件工具和开源软件。常用的商业数据挖掘软件如SAS 、IBM Modeler(原来的SPSS Clementine);常用开源数据挖掘软件有R、Weka;另一类是集成在现有产品里面,比如微软和Oracle在原有的数据库产品中,集成了数据挖掘的模型,但是不能独立的使用。

从数据分析的角度,我用的最多的是SAS和Modeler,SAS比较灵活,通过模块化的第四代程序语言,实现强大的数据处理功能数据和丰富的模型,Modeler的提点在于友好的界面,把复杂的功能封装起来,通过鼠标拖拉点击,实现这个过程,SAS也有和EM模块和Modeler的功能类似。

2.讨论一下数据挖掘在web2.0的应用。
Web2.0时代,面对的是一个快速、易变的客户群。谁都有机会,但是机会好比前面看长满了头发,后面看却是一个秃子。当他向你走来的时候,你一把可以抓住他的头发,一旦走过去,你就在也没有抓住的机会了。

Web2.0时代,你是视线直接看不到你的客户,你只能借助各个方面的信息,去准确、及时的把握客户的需求,才能把客户留下。数据挖掘技术就是提供这些信息,帮助你正确判断、准确决策的方法。

数据挖掘技术的应用,在传统的行业(业务模式相对比较固定、流程相对规范的行业,比如零售业、保险行业等)均有成功的案例。互联网行业和传统的行业相比,在数据源上有很多相同的数据,比如客户资料、产品服务、交易行为、营销活动等。但是互联网行业有一部分海量的数据,是传统行业所不具备的,即:客户的点击流数据。这些点击流数据正是反应客户的需求。任何行业都需要及时、准确的掌握客户的需求,在互联网这个快速、模式不固定、和客户没有直接接触的环境下,这个问题尤为重要。任何数据分析和数据挖掘都是围绕客户进行,互联网行业具有客户行为的丰富数据,因此,数据挖掘在互联网上具有很好的应用基础。比如:
现有客户的特征的描述
客户的分类(有各种分类的模型,RFM就是现在用得比较多的)
客户价值分析
客户浏览习惯
客户浏览内容
客户的留言、评论、回复等文本分析
客户生命周期的分析
客户风险的识别
产品的关联分析
产品的盈利分析
。。。

3.大家是如何进行数据挖掘呢?有没有什么好的方法?
数据挖掘有三个层次:
第一层次:关注模型和工具。这个阶段是数据挖掘的学习阶段,主要的精力都放在模型和借助工具的实现,比如回归分析、方差分析、时序分析、聚类模型、分类模型、神经网络模型等,很多教材都有案例和数据,把这些案例和数据都照葫芦画瓢做一遍,分析一下结果数据,感觉很有技术含量。

第二级:关注数据。这一阶段可以说是新手上路。学了很多模型,也把教学案例研究得比较透彻,能够熟练的借助现有的数据和软件,得出结果。但是在实际工作过一段时间后,感觉有点迷茫,数据挖掘项目的结果没有课本中说的那样好的效果,比如:回归模型分析显著性很低;关联分析的支持度和置信度阀值要调得很低,才能有规则发现;聚类分析的结果让人不好理解等等。仔细想想,除了对模型的理论和应用还没有完全理解透外,发现数据没有教学案例中那样好的质量(没有缺失、数据的变异小、没有异常值等)。这个时候关注的重点放在数据,理解数据的类型、数据的偏差、数据的真实、数据的不一致、数据的分布等数据的预处理阶段。这时再回头看看,发现建模的工作只是占整个数据挖掘过程中很小的一部分,大量的工作放在数据的预处理阶段。到现在,才真正理解“脏数据进,脏数据出”。

第三阶段:关注业务。在第二阶段,对数据的理解和认识有了提高,也会遇到一些新的需求,同时也会经常关注行业内外的案例,思考如何把他人的成功案例引入到自己的工作环境上,这些案例采用了哪些数据,有些数据是已经有的,理解这些数据的来源和业务模式;还有哪些数据目前还没有,这就要考虑如何推动去收集这些数据。关注的重点更贴近低层数据的来源和完善,有过数据预处理的经验,在这个阶段,有过第二阶段的实际工作经验,对数据质量的完善有很大的帮助。关注质量业务有两个方向:
一是,现有的业务收集的哪些数据,可以做哪些分析工作,应用在哪些方面;
二是,哪些应用,还需要哪些数据支持,如何收集或完善。

前一段时间看了一本关于人工智能的论文集,前面的序言上写道:业务>数据>算法。回头想想自己在数据分析/数据挖掘工作经历,确实验证了这句话。

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:19
27 [报告]
发表于 2013-01-23 09:23 |只看该作者
没有实际做过,不过我觉得可能跟人工智能有关系吧,比如机器学习,然后好像有本书是介绍用pathon实现简单的机器学习,可以把一些具有相似性质的物品或人进行分类,然后进行推荐或者什么的
DM确实是个很不错的东西,毕竟以后的数据只会越来越大,,人们越来越依赖互联网,期待啊

论坛徽章:
0
28 [报告]
发表于 2013-01-23 11:17 |只看该作者
本人,数学学的不错,但是,计算机学得不咋的,特别是入门学linux的时候,我看了半天,愣是没有看明白。

论坛徽章:
3
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:19
29 [报告]
发表于 2013-01-23 11:43 |只看该作者
a884686700 发表于 2013-01-23 11:17
本人,数学学的不错,但是,计算机学得不咋的,特别是入门学linux的时候,我看了半天,愣是没有看明白。

做计算机行业的未必一定要清楚计算机各面面,数学好是很重要的基础,如果方法论,统计概论都去研读和学习,你做数据分析专员是很合适的!呵呵!:wink:

论坛徽章:
0
30 [报告]
发表于 2013-01-23 12:03 |只看该作者
本学学历初中
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP