论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2005-12-07 16:38 |只看该作者 |倒序浏览

在数据处理中经常会遇到去除重复数据的需要，由于数据格式的不同每次总是需要进行不同的操作。结合平时的运用，总结了几种简单方法。

一.利用数据库

数据量小的话可以用Access,大的话使用大型些的，如informix等。首先建立一个与源数据结构完全相同的表，根据去重的条件建立唯一索引。然后将数据通过导入工具导入该表，access将自动将插入不成功的数据过滤，对于按照索引重复的数据只能插入一条，轻易达到去重目的。此法适用于小数据量，不想写程序，一次性行为。对于大数据量的可以通过"大功率"的数据库系统采用类似的方法进行处理，如使用informix的dbload工具，忽略导入错误进行装入。

二.unix环境的shell命令

先使用sort指令将文件中的数据按照要求的索引进行排序，然后使用uniq指令将重复数据去掉得到想要的结果。如有个文件a.txt中有重复行，需要去除重复行时执行如下指令：
#sort a.txt > b.txt;
#uniq b.txt > c.txt
c.txt文件就是所需数据了.

三.编写程序

使用数据结构丰富的脚本语言可能更为方便，比如python，利用其中的字典数据结构，将索引作为Key值其它数据项作为Value将数据导入内存，遇到重复时忽略错误很快就可以完成。

文库|博客

czw1413_cn czw1413_cn 当前离线禁止发言好友博客消息论坛徽章: 0	2楼 [报告] 发表于 2005-12-07 20:48 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？