extend_asdfqwer 发表于 2010-01-13 22:52

服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下

一组大数据量,很大,几万条不止。绝大部分服从正态分布,比如,基本围绕10(经验值而已,非期望值)左右分布,8.3,9.7,11.2,12.5这些值,我们说属于正常范围,但是少量数据(数量不确定)过大或过小,比如,78,67,1.2,3等等,甚至还有些100+的值,

有什么科学的办法能剔出这些过大或过小的垃圾数据?因为这些数据的存在会影响到报表的结果。
我分析了一下,有以下难点:

1.难以或者不能设定一个界限,比如15和5,说超过或小于界限外的全部剔出,这应该不是科学的方法/算法。
2.因为没有边界,所以就难以确定这些过大或过小值的占比,也就无从得到这组数据的期望值。

各位有什么办法没?
我想这更多是属于BI领域的问题,不知道BI产品有没有针对这种情况的现成的分析或计算方法。

extend_asdfqwer 发表于 2010-01-13 23:26

补充一下,手头没有那么专业的分析软件或工具,不知道用Excel能不能解决。

extend_asdfqwer 发表于 2010-01-13 23:36

再补充下,MS SQL server 2005能解决也行

extend_asdfqwer 发表于 2010-01-14 16:27

难道没人能给点提示?

scutan 发表于 2010-01-18 16:19

试试小波变换。

digitalchina 发表于 2010-01-20 15:59

这属于数据标准化的问题(BI的第一步)

可以考虑 ‘基尼指数’的标准化方法。

钻石王小二2010 发表于 2010-01-21 11:24

看起来挺不错,我去看看再说咯

norvid 发表于 2010-05-05 17:08

不那么追求精确的话,可以参考盒图(boxplot)的做法,以Q1-1.5IQR为下界,以Q3+1.5IQR为上界。
其中Q1为下四分位数,Q3为上四分位数。:P

rsjq 发表于 2010-05-10 11:15

riancy1106 发表于 2010-09-14 14:35

学习了!!!
页: [1] 2
查看完整版本: 服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下