Chinaunix
标题:
shell 两个文本文件如何有效率的排除相同数据?
[打印本页]
作者:
pdgf111p
时间:
2011-09-24 00:21
标题:
shell 两个文本文件如何有效率的排除相同数据?
文件file1
a
b
c
1
2
3
y
文件file2
a
b
c
4
5
6
x
要分别取出file1 和 file2 中不同的数据(相同的数据去掉)
因为文件太大,下面代码效率太低,是否有更好方法?
while read a
do
#查看file1中每行是否在file2中存在
grep -l $a file2
if [ $? -eq 0 ];then
#存在,删除file2中对应行
sed -i '/'$a'/'d file2
else
#不存在,写入file3
#或者删除file1对应行
#sed -i '/'$a'/'d file1
echo $a >>file3
fi
done < file1
作者:
Shell_HAT
时间:
2011-09-24 00:39
grep -vxFf file1 file2
复制代码
作者:
pdgf111p
时间:
2011-09-24 00:56
本帖最后由 pdgf111p 于 2011-09-24 01:15 编辑
汗。这个方法挺好的。
我有个地方没写全,文件内容每行后面的值是不一样的。我先用awk取第一行要对比的。去掉第一行相同的。
文件file1
(a) xxxyyyyxx fdsaf
(b) --乱码
(c) --乱码
(1) xxxyyyyxx fdsaf
(2) fdsafdsa
(3) fdsfsa
(y) fdsafas
文件file2
zzz (a) --fdsafsa
ddd (b) --fdsafdsafs
ffffff (c) --fdsafs
ddd (4) fds
ffe (5) fdsa
rew (6) f
ds (x)
作者:
yinyuemi
时间:
2011-09-24 01:41
回复
3#
pdgf111p
awk 'NR==FNR{a[$1]=1;next}!a[$2]' A B
作者:
pdgf111p
时间:
2011-09-24 01:42
已解决,用$1 $2 等可以解决行的问题。
awk 'ARGIND==1{z[$0]} ARGIND>1&&!($1 in z){print $0}' file1 file2
参考网页
http://bbs.chinaunix.net/viewthread.php?tid=222716
作者:
cjaizss
时间:
2011-09-24 14:21
这样的问题之间已经问过很多遍了,你可以查查以前的帖子
作者:
blackold
时间:
2011-09-24 17:18
回复
2#
Shell_HAT
这个比较好吧。
作者:
惟吾无为
时间:
2011-09-24 17:22
md5sum 获取文件校验和也是方法之一.
作者:
Shell_HAT
时间:
2011-09-24 20:41
回复
8#
惟吾无为
能否给个完整的代码出来让大家学习下?
注意:楼主要处理大文件
作者:
惟吾无为
时间:
2011-09-24 21:00
回复错误, 只能分辨文件是否相同, 不能找出细节差异.
合并排序取唯一行, 没试过大文件
cat file1 file2 | sort | uniq -u
作者:
Shell_HAT
时间:
2011-09-24 23:38
回复
10#
惟吾无为
一般尽量减少管道的数量吧:
cat file1 file2 | sort -u
复制代码
作者:
惟吾无为
时间:
2011-09-25 08:03
要分别取出file1 和 file2 中不同的数据(相同的数据去掉)
而sort -u只能把重复的行去掉
uniq -u只显示唯一行
#cat file1
1
2
3
#cat file2
2
3
4
#cat file[12] | sort | uniq -u
1
4
# cat file[12] | sort -u
1
2
3
4
作者:
Shell_HAT
时间:
2011-09-25 09:49
回复
12#
惟吾无为
嗯,我滴错,我有罪。
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2