免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: extend_asdfqwer
打印 上一主题 下一主题

服从正态分布的大数据量,如何科学剔出其中垃圾数据,大家一起研究下 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2010-09-16 18:42 |只看该作者
这倒是个解决的方法啊,大学的概率论还是有点用的。。。

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:56:11
12 [报告]
发表于 2010-11-27 06:03 |只看该作者
回复 1# extend_asdfqwer


设几个值点,求出落入值点范围内的数据个数。
根据数据个数的分布,调整值点的大小和个数,
最后去掉两头的或取中间的。
这要多次扫描源数据。

论坛徽章:
0
13 [报告]
发表于 2010-12-16 11:02 |只看该作者
回复 1# extend_asdfqwer


    这个太简单了,用6sigma过滤。
我一般用2.58*2 sigma,过滤95%。

论坛徽章:
0
14 [报告]
发表于 2011-01-18 23:34 |只看该作者
离群点分析
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP