免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6774 | 回复: 5
打印 上一主题 下一主题

几种数据去重的方法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2005-12-07 16:38 |只看该作者 |倒序浏览
在数据处理中经常会遇到去除重复数据的需要,由于数据格式的不同每次总是需要进行不同的操作。结合平时的运用,总结了几种简单方法。


一.利用数据库

    数据量小的话可以用Access,大的话使用大型些的,如informix等。首先建立一个与源数据结构完全相同的表,根据去重的条件建立唯一索引。然后将数据通过导入工具导入该表,access将自动将插入不成功的数据过滤,对于按照索引重复的数据只能插入一条,轻易达到去重目的。此法适用于小数据量,不想写程序,一次性行为。对于大数据量的可以通过"大功率"的数据库系统采用类似的方法进行处理,如使用informix的dbload工具,忽略导入错误进行装入。

二.unix环境的shell命令

    先使用sort指令将文件中的数据按照要求的索引进行排序,然后使用uniq指令将重复数据去掉得到想要的结果。如有个文件a.txt中有重复行,需要去除重复行时执行如下指令:
    #sort a.txt > b.txt;
    #uniq b.txt > c.txt
    c.txt文件就是所需数据了.

三.编写程序

    使用数据结构丰富的脚本语言可能更为方便,比如python,利用其中的字典数据结构,将索引作为Key值其它数据项作为Value将数据导入内存,遇到重复时忽略错误很快就可以完成。

论坛徽章:
0
2 [报告]
发表于 2005-12-07 20:48 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
3 [报告]
发表于 2005-12-08 00:51 |只看该作者
收到,多谢楼主,第三个编程的恐怕真的还是要多学习下

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
4 [报告]
发表于 2005-12-08 15:49 |只看该作者
不错,顶一下!

论坛徽章:
0
5 [报告]
发表于 2005-12-09 15:58 |只看该作者
为什么不用更简单的:sort -u file1>file2

论坛徽章:
0
6 [报告]
发表于 2005-12-10 16:55 |只看该作者
学习
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP