免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3990 | 回复: 12
打印 上一主题 下一主题

shell 两个文本文件如何有效率的排除相同数据? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-09-24 00:21 |只看该作者 |倒序浏览
文件file1
a
b
c
1
2
3
y
文件file2
a
b
c
4
5
6
x

要分别取出file1 和 file2 中不同的数据(相同的数据去掉)

因为文件太大,下面代码效率太低,是否有更好方法?

while read a
do
#查看file1中每行是否在file2中存在
        grep -l $a file2
        if [ $? -eq 0 ];then
#存在,删除file2中对应行
                sed -i '/'$a'/'d file2
        else
#不存在,写入file3
#或者删除file1对应行
#sed -i '/'$a'/'d file1
                echo $a >>file3
        fi
done < file1

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2011-09-24 00:39 |只看该作者
  1. grep -vxFf file1 file2
复制代码

论坛徽章:
0
3 [报告]
发表于 2011-09-24 00:56 |只看该作者
本帖最后由 pdgf111p 于 2011-09-24 01:15 编辑

汗。这个方法挺好的。
我有个地方没写全,文件内容每行后面的值是不一样的。我先用awk取第一行要对比的。去掉第一行相同的。

文件file1
(a) xxxyyyyxx fdsaf
(b) --乱码
(c) --乱码
(1) xxxyyyyxx fdsaf
(2) fdsafdsa
(3) fdsfsa
(y) fdsafas

文件file2
zzz (a) --fdsafsa
ddd (b) --fdsafdsafs
ffffff (c) --fdsafs
ddd (4) fds
ffe   (5) fdsa
rew (6) f
ds   (x)

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
4 [报告]
发表于 2011-09-24 01:41 |只看该作者
回复 3# pdgf111p


    awk 'NR==FNR{a[$1]=1;next}!a[$2]' A B

论坛徽章:
0
5 [报告]
发表于 2011-09-24 01:42 |只看该作者
已解决,用$1 $2 等可以解决行的问题。

awk 'ARGIND==1{z[$0]} ARGIND>1&&!($1 in z){print $0}' file1 file2

参考网页
http://bbs.chinaunix.net/viewthread.php?tid=222716

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
6 [报告]
发表于 2011-09-24 14:21 |只看该作者
这样的问题之间已经问过很多遍了,你可以查查以前的帖子

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
7 [报告]
发表于 2011-09-24 17:18 |只看该作者
回复 2# Shell_HAT


    这个比较好吧。

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
8 [报告]
发表于 2011-09-24 17:22 |只看该作者
md5sum 获取文件校验和也是方法之一.

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
9 [报告]
发表于 2011-09-24 20:41 |只看该作者
回复 8# 惟吾无为


能否给个完整的代码出来让大家学习下?
注意:楼主要处理大文件

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
10 [报告]
发表于 2011-09-24 21:00 |只看该作者
回复错误, 只能分辨文件是否相同, 不能找出细节差异.

合并排序取唯一行, 没试过大文件
cat file1 file2 | sort | uniq -u
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP