免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 13972 | 回复: 13

服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下 [复制链接]

论坛徽章:
0
发表于 2010-01-13 22:52 |显示全部楼层
一组大数据量,很大,几万条不止。绝大部分服从正态分布,比如,基本围绕10(经验值而已,非期望值)左右分布,8.3,9.7,11.2,12.5这些值,我们说属于正常范围,但是少量数据(数量不确定)过大或过小,比如,78,67,1.2,3等等,甚至还有些100+的值,

有什么科学的办法能剔出这些过大或过小的垃圾数据?因为这些数据的存在会影响到报表的结果。
我分析了一下,有以下难点:

1.难以或者不能设定一个界限,比如15和5,说超过或小于界限外的全部剔出,这应该不是科学的方法/算法。
2.因为没有边界,所以就难以确定这些过大或过小值的占比,也就无从得到这组数据的期望值。

各位有什么办法没?
我想这更多是属于BI领域的问题,不知道BI产品有没有针对这种情况的现成的分析或计算方法。

论坛徽章:
0
发表于 2010-01-13 23:26 |显示全部楼层
补充一下,手头没有那么专业的分析软件或工具,不知道用Excel能不能解决。

论坛徽章:
0
发表于 2010-01-13 23:36 |显示全部楼层
再补充下,MS SQL server 2005能解决也行

论坛徽章:
0
发表于 2010-01-14 16:27 |显示全部楼层
难道没人能给点提示?

论坛徽章:
0
发表于 2010-01-18 16:19 |显示全部楼层
试试小波变换。

论坛徽章:
0
发表于 2010-01-20 15:59 |显示全部楼层
这属于数据标准化的问题(BI的第一步)

可以考虑 ‘基尼指数’的标准化方法。

论坛徽章:
0
发表于 2010-01-21 11:24 |显示全部楼层
看起来挺不错,我去看看再说咯

论坛徽章:
0
发表于 2010-05-05 17:08 |显示全部楼层
不那么追求精确的话,可以参考盒图(boxplot)的做法,以Q1-1.5IQR为下界,以Q3+1.5IQR为上界。
其中Q1为下四分位数,Q3为上四分位数。
rsjq 该用户已被删除
发表于 2010-05-10 11:15 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
发表于 2010-09-14 14:35 |显示全部楼层
学习了!!!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP