免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2924 | 回复: 0

互联网应用对数据挖掘传统思维的小小挑战 [复制链接]

论坛徽章:
0
发表于 2011-03-01 14:40 |显示全部楼层
互联网应用对数据挖掘传统思维的小小挑战





投入互联网的数据分析挖掘已经快一年了,虽然谈不上熟悉,但是也多少有自己的一些孔见,跟自己以前的传统行业数据分析相比,互联网里面的SAAS模式中就有不少比较独特的与主流挖掘思维和情形相左的特点,仔细想想这些冲突是矛盾,更是风景。因为有创新才有进步,有冲突才有故事,有情况才不平庸。(本段文字有些前言不搭后语,因为我是个信口开河的白痴,想到哪说到哪,所谓心口一致,身心合一,这样自在,这样逍遥)。

传统的营销响应挖掘分析思路,基本上就是先拿一个实验群体,进行营销测试,收集反应数据,据此搭建响应模型,优化模型后投入新的类似特征群体进行模型打分,挑选最有可能的潜在目标受众进行所谓的高投入高反馈的定向营销;在SAAS模式的业务运营中,很多时候是无法区分实验群体和打分群体的(主要原因是避免运营的时间间隔过长,还因为SAAS模式是真正放手让消费者自己决定,少了卖家商家的过分“推销”),自动化运营业不支持不依赖过多的人力推广,面对这种类型的营销响应分析,更常用的是采用聚类,统计等归纳分析的方法。

传统的关联分析应用中,对于数据的清理是比较简单的,比如购物篮分析(或者考虑了时间戳因素的序列分析)大家更多的是把时间和精力放在随后的规则研判上面;但是在互联网业务应用中,对于用户浏览行为中的step数据,有太多的清理需求和清理方向。在一个常规的商业网站,用户一次浏览session可以包括几十上百个不同页面,不同打点,如果不对这些页面进行有效的归纳和整合的话,出来的规则基本上是没有实际意义的。如何有效归纳和整合,是关联分析在网络数据应用的特点和关键。基本上采取的办法是化整为零(把页面按功能划分,对功能逐一分析),化繁为简(把同一功能页面归纳成一类,简化数据),化腐朽为神奇(这个是对官方的总结语说的,溢美之词,肉麻的吹捧,博君一笑,呵呵)。

互联网行业(包括SAAS模式)相比传统的数据分析挖掘实践来说,有一个典型的特点,就是海量的数据,海量的字段,海量的信息。尤其是海量的字段,使得分析之前对于分析字段的挑选和排查工作,重要性无以加复。如何大浪淘沙挑选变量由此显得更加重要和关键,具体的总结很难用文字形容,还是三分技术,七分业务理解吧。

互联网行业(包括SAAS模式)相比传统的数据分析挖掘实践来说,还有一个明显的实效性的特点,这个行业技术应用飞速发展,产品和竞争一日千里,都使该行业的数据挖掘项目的时间进度比传统行业的项目模式快得多。一方面要保证挖掘结果的起码质量,另一方面要满足这个行业超快的行业节奏,这也使得传统的挖掘分析思路和步调必须改革,必须升华,从而具有鲜明的Internet色彩。

我的浅薄使得我只能看到上述几点,我也没有很好的方法来应对上面几点,我只是“坚持熟悉互联网业务,坚持数据挖掘的爱好兴趣”,这两点很朴素、很直白、很不讨巧、很白痴,但是对我这样的白痴比较有效果。如果你觉得上述总结平淡无奇,恭喜您,您不是白痴;如果你觉得上述总结对你有帮助,那说明你跟我一样也是白痴。其实,在这个精明透顶的社会和精明透顶的时代,做个白痴未尝不是一件乐事,因为白痴没有压力,很自在,心很轻松。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP