免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2365 | 回复: 18

[文本处理] 怎么删除三个文件中的相同行? [复制链接]

论坛徽章:
0
发表于 2018-08-06 15:29 |显示全部楼层
两个文件可以直接用comm,请问三个文件怎么办?
例如这个
微信图片_20180806152724.png

这三个文件的相同行是A    a    1

论坛徽章:
0
发表于 2018-08-06 15:34 |显示全部楼层
结果还是三个文件,只是每个文件少了相同的那一行,这个有什么简单一点的方法吗?我只能想到循环三个文件

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
发表于 2018-08-06 16:11 |显示全部楼层
本帖最后由 chengchow 于 2018-08-07 10:23 编辑

找出相同行再删除
sed -i "/$(grep $(grep -f 2.txt 3.txt) 1.txt 2>/dev/null | awk -F: '{print $NF}')/d" 1.txt 2.txt 3.txt
解释下
#!/bin/bash

same12=$(grep -f 1.txt 2.txt)
same123=$(grep $same12 3.txt 2>/dev/null | awk -F: '{print $NF}'

sed -i "/$same123/d" 1.txt 2.txt 3.txt

exit 0

不去纠结用一条命令完成,其实很简单

论坛徽章:
4
15-16赛季CBA联赛之青岛
日期:2018-07-09 14:17:2815-16赛季CBA联赛之八一
日期:2018-08-06 15:30:0515-16赛季CBA联赛之广东
日期:2018-08-09 09:11:2115-16赛季CBA联赛之佛山
日期:2019-02-14 09:26:31
发表于 2018-08-06 16:14 |显示全部楼层
本帖最后由 christmas1102 于 2018-08-06 16:40 编辑

回复 1# elaine2017
  1. awk 'ARGIND==1{a[$0]=$0;next}ARGIND==2{!a[$0]?b=b?b"\n"$0:$0:d=d?d"|"a[$0]:a[$0];next}ARGIND==3{if(!a[$0]){c=c?c"\n"$0:$0}}END{print b>"A2";print c>"A3";for(i in a){if(a[i]&&a[i]!~d){e=e?e"\n"a[i]:a[i]}};print e>"A1"}' A1 A2 A3
复制代码

评分

参与人数 1信誉积分 +5 收起 理由
elaine2017 + 5 很给力!

查看全部评分

论坛徽章:
0
发表于 2018-08-06 16:18 |显示全部楼层
回复 4# christmas1102

太厉害了

论坛徽章:
4
15-16赛季CBA联赛之青岛
日期:2018-07-09 14:17:2815-16赛季CBA联赛之八一
日期:2018-08-06 15:30:0515-16赛季CBA联赛之广东
日期:2018-08-09 09:11:2115-16赛季CBA联赛之佛山
日期:2019-02-14 09:26:31
发表于 2018-08-06 17:10 |显示全部楼层
回复 3# chengchow

  1. sed -i '/'"$(cat a b c|sort|uniq -d)"'/d' a b c
复制代码
也是一行 grep -xvFf 大概也是一样,就是写的多点

论坛徽章:
3
15-16赛季CBA联赛之八一
日期:2017-12-29 13:06:2315-16赛季CBA联赛之天津
日期:2018-08-08 17:39:4619周年集字徽章-年
日期:2019-12-25 22:50:31
发表于 2018-08-06 18:19 来自手机 |显示全部楼层
awk '!a[$0]++{print>FILENAME".bak"}' *.txt

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-08-06 18:24 |显示全部楼层
本帖最后由 wh7211 于 2018-08-07 19:53 编辑

回复 1# elaine2017
回复 16# christmas1102


下面代码适用于“3个源文件中不会出现2个重复行记录的情况”。优化后的代码见18楼
  1. cat A1.txt
  2. A a 1
  3. j s a
  4. c d a

  5. cat A2.txt
  6. a j a
  7. b 1 2
  8. A a 1

  9. cat A3.txt
  10. i j 6
  11. A a 1
  12. j 3 4

  13. awk '{a[$0]=NR" "FILENAME;b[$0]++}END{PROCINFO["sorted_in"]="@val_num_asc";for(i in a){if(b[i]==3){delete a[i]}else{split(a[i],c);print i>c[2]}}}' A1.txt A2.txt A3.txt

  14. cat A1.txt
  15. j s a
  16. c d a

  17. cat A2.txt
  18. a j a
  19. b 1 2

  20. cat A3.txt
  21. i j 6
  22. j 3 4
复制代码

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
发表于 2018-08-07 10:33 |显示全部楼层
本帖最后由 chengchow 于 2018-08-07 10:34 编辑

回复 6# christmas1102

这样如果b c中有a没有也会被删除的,好像7楼的写法和你的一样,都会误删除的

论坛徽章:
0
发表于 2018-08-07 16:14 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP