Chinaunix

标题: shell 两个文本文件如何有效率的排除相同数据？ [打印本页]

作者: pdgf111p 时间: 2011-09-24 00:21
标题: shell 两个文本文件如何有效率的排除相同数据？
文件file1
a
b
c
1
2
3
y
文件file2
a
b
c
4
5
6
x

要分别取出file1 和 file2 中不同的数据（相同的数据去掉）

因为文件太大，下面代码效率太低，是否有更好方法？

while read a
do
#查看file1中每行是否在file2中存在
grep -l $a file2
if [ $? -eq 0 ];then
#存在，删除file2中对应行
sed -i '/'$a'/'d file2
else
#不存在，写入file3
#或者删除file1对应行
#sed -i '/'$a'/'d file1
echo $a >>file3
fi
done < file1

作者: Shell_HAT 时间: 2011-09-24 00:39

grep -vxFf file1 file2

复制代码

作者: pdgf111p 时间: 2011-09-24 00:56
本帖最后由 pdgf111p 于 2011-09-24 01:15 编辑

汗。这个方法挺好的。
我有个地方没写全，文件内容每行后面的值是不一样的。我先用awk取第一行要对比的。去掉第一行相同的。

文件file1
(a) xxxyyyyxx fdsaf
(b) --乱码
(c) --乱码
(1) xxxyyyyxx fdsaf
(2) fdsafdsa
(3) fdsfsa
(y) fdsafas

文件file2
zzz (a) --fdsafsa
ddd (b) --fdsafdsafs
ffffff (c) --fdsafs
ddd (4) fds
ffe (5) fdsa
rew (6) f
ds (x)

作者: yinyuemi 时间: 2011-09-24 01:41
回复 3# pdgf111p

awk 'NR==FNR{a[$1]=1;next}!a[$2]' A B

作者: pdgf111p 时间: 2011-09-24 01:42
已解决，用$1 $2 等可以解决行的问题。

awk 'ARGIND==1{z[$0]} ARGIND>1&&!($1 in z){print $0}' file1 file2

参考网页
http://bbs.chinaunix.net/viewthread.php?tid=222716

作者: cjaizss 时间: 2011-09-24 14:21
这样的问题之间已经问过很多遍了,你可以查查以前的帖子

作者: blackold 时间: 2011-09-24 17:18
回复 2# Shell_HAT

这个比较好吧。

作者: 惟吾无为 时间: 2011-09-24 17:22
md5sum 获取文件校验和也是方法之一.

作者: Shell_HAT 时间: 2011-09-24 20:41
回复 8# 惟吾无为

能否给个完整的代码出来让大家学习下？
注意：楼主要处理大文件

作者: 惟吾无为 时间: 2011-09-24 21:00
回复错误, 只能分辨文件是否相同, 不能找出细节差异.

合并排序取唯一行, 没试过大文件
cat file1 file2 | sort | uniq -u

作者: Shell_HAT 时间: 2011-09-24 23:38
回复 10# 惟吾无为

一般尽量减少管道的数量吧：

cat file1 file2 | sort -u

复制代码

作者: 惟吾无为 时间: 2011-09-25 08:03
要分别取出file1 和 file2 中不同的数据（相同的数据去掉）
而sort -u只能把重复的行去掉
uniq -u只显示唯一行
#cat file1
1
2
3
#cat file2
2
3
4
#cat file[12] | sort | uniq -u
1
4
# cat file[12] | sort -u
1
2
3
4

作者: Shell_HAT 时间: 2011-09-25 09:49
回复 12# 惟吾无为

嗯，我滴错，我有罪。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)