Chinaunix

标题: shell 两个文本文件如何有效率的排除相同数据? [打印本页]

作者: pdgf111p    时间: 2011-09-24 00:21
标题: shell 两个文本文件如何有效率的排除相同数据?
文件file1
a
b
c
1
2
3
y
文件file2
a
b
c
4
5
6
x

要分别取出file1 和 file2 中不同的数据(相同的数据去掉)

因为文件太大,下面代码效率太低,是否有更好方法?

while read a
do
#查看file1中每行是否在file2中存在
        grep -l $a file2
        if [ $? -eq 0 ];then
#存在,删除file2中对应行
                sed -i '/'$a'/'d file2
        else
#不存在,写入file3
#或者删除file1对应行
#sed -i '/'$a'/'d file1
                echo $a >>file3
        fi
done < file1
作者: Shell_HAT    时间: 2011-09-24 00:39
  1. grep -vxFf file1 file2
复制代码

作者: pdgf111p    时间: 2011-09-24 00:56
本帖最后由 pdgf111p 于 2011-09-24 01:15 编辑

汗。这个方法挺好的。
我有个地方没写全,文件内容每行后面的值是不一样的。我先用awk取第一行要对比的。去掉第一行相同的。

文件file1
(a) xxxyyyyxx fdsaf
(b) --乱码
(c) --乱码
(1) xxxyyyyxx fdsaf
(2) fdsafdsa
(3) fdsfsa
(y) fdsafas

文件file2
zzz (a) --fdsafsa
ddd (b) --fdsafdsafs
ffffff (c) --fdsafs
ddd (4) fds
ffe   (5) fdsa
rew (6) f
ds   (x)
作者: yinyuemi    时间: 2011-09-24 01:41
回复 3# pdgf111p


    awk 'NR==FNR{a[$1]=1;next}!a[$2]' A B
作者: pdgf111p    时间: 2011-09-24 01:42
已解决,用$1 $2 等可以解决行的问题。

awk 'ARGIND==1{z[$0]} ARGIND>1&&!($1 in z){print $0}' file1 file2

参考网页
http://bbs.chinaunix.net/viewthread.php?tid=222716
作者: cjaizss    时间: 2011-09-24 14:21
这样的问题之间已经问过很多遍了,你可以查查以前的帖子
作者: blackold    时间: 2011-09-24 17:18
回复 2# Shell_HAT


    这个比较好吧。
作者: 惟吾无为    时间: 2011-09-24 17:22
md5sum 获取文件校验和也是方法之一.
作者: Shell_HAT    时间: 2011-09-24 20:41
回复 8# 惟吾无为


能否给个完整的代码出来让大家学习下?
注意:楼主要处理大文件
作者: 惟吾无为    时间: 2011-09-24 21:00
回复错误, 只能分辨文件是否相同, 不能找出细节差异.

合并排序取唯一行, 没试过大文件
cat file1 file2 | sort | uniq -u
作者: Shell_HAT    时间: 2011-09-24 23:38
回复 10# 惟吾无为


一般尽量减少管道的数量吧:
  1. cat file1 file2 | sort -u
复制代码

作者: 惟吾无为    时间: 2011-09-25 08:03
要分别取出file1 和 file2 中不同的数据(相同的数据去掉)
而sort -u只能把重复的行去掉
uniq -u只显示唯一行
#cat file1
1
2
3
#cat file2
2
3
4
#cat file[12] | sort | uniq -u
1
4
# cat file[12] | sort -u
1
2
3
4
作者: Shell_HAT    时间: 2011-09-25 09:49
回复 12# 惟吾无为


嗯,我滴错,我有罪。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2