服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下
一组大数据量,很大,几万条不止。绝大部分服从正态分布,比如,基本围绕10(经验值而已,非期望值)左右分布,8.3,9.7,11.2,12.5这些值,我们说属于正常范围,但是少量数据(数量不确定)过大或过小,比如,78,67,1.2,3等等,甚至还有些100+的值,有什么科学的办法能剔出这些过大或过小的垃圾数据?因为这些数据的存在会影响到报表的结果。
我分析了一下,有以下难点:
1.难以或者不能设定一个界限,比如15和5,说超过或小于界限外的全部剔出,这应该不是科学的方法/算法。
2.因为没有边界,所以就难以确定这些过大或过小值的占比,也就无从得到这组数据的期望值。
各位有什么办法没?
我想这更多是属于BI领域的问题,不知道BI产品有没有针对这种情况的现成的分析或计算方法。 补充一下,手头没有那么专业的分析软件或工具,不知道用Excel能不能解决。 再补充下,MS SQL server 2005能解决也行 难道没人能给点提示? 试试小波变换。 这属于数据标准化的问题(BI的第一步)
可以考虑 ‘基尼指数’的标准化方法。 看起来挺不错,我去看看再说咯 不那么追求精确的话,可以参考盒图(boxplot)的做法,以Q1-1.5IQR为下界,以Q3+1.5IQR为上界。
其中Q1为下四分位数,Q3为上四分位数。:P 学习了!!!
页:
[1]
2