服从正态分布的大数据量，如何科学剔出其中垃圾数据，大家一起研究下

extend_asdfqwer 发表于 2010-01-13 22:52

一组大数据量，很大，几万条不止。绝大部分服从正态分布，比如，基本围绕10（经验值而已，非期望值）左右分布，8.3，9.7，11.2，12.5这些值，我们说属于正常范围，但是少量数据（数量不确定）过大或过小，比如，78，67，1.2,3等等，甚至还有些100+的值，

有什么科学的办法能剔出这些过大或过小的垃圾数据？因为这些数据的存在会影响到报表的结果。
我分析了一下，有以下难点：

1.难以或者不能设定一个界限，比如15和5，说超过或小于界限外的全部剔出，这应该不是科学的方法/算法。
2.因为没有边界，所以就难以确定这些过大或过小值的占比，也就无从得到这组数据的期望值。

各位有什么办法没？
我想这更多是属于BI领域的问题，不知道BI产品有没有针对这种情况的现成的分析或计算方法。

extend_asdfqwer 发表于 2010-01-13 23:26

补充一下,手头没有那么专业的分析软件或工具，不知道用Excel能不能解决。

extend_asdfqwer 发表于 2010-01-13 23:36

再补充下，MS SQL server 2005能解决也行

extend_asdfqwer 发表于 2010-01-14 16:27

难道没人能给点提示？

scutan 发表于 2010-01-18 16:19

试试小波变换。

digitalchina 发表于 2010-01-20 15:59

这属于数据标准化的问题（BI的第一步）

可以考虑 ‘基尼指数’的标准化方法。

钻石王小二2010 发表于 2010-01-21 11:24

看起来挺不错，我去看看再说咯

norvid 发表于 2010-05-05 17:08

不那么追求精确的话，可以参考盒图(boxplot)的做法，以Q1-1.5IQR为下界，以Q3+1.5IQR为上界。
其中Q1为下四分位数，Q3为上四分位数。:P

rsjq 发表于 2010-05-10 11:15

riancy1106 发表于 2010-09-14 14:35

学习了！！！

页: [1] 2

Chinaunix's Archiver

服从正态分布的大数据量，如何科学剔出其中垃圾数据，大家一起研究下