免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 973 | 回复: 18

[文本处理] 怎么删除三个文件中的相同行? [复制链接]

论坛徽章:
0
发表于 2018-08-06 15:29 |显示全部楼层
两个文件可以直接用comm,请问三个文件怎么办?
例如这个
微信图片_20180806152724.png

这三个文件的相同行是A    a    1

论坛徽章:
0
发表于 2018-08-06 15:34 |显示全部楼层
结果还是三个文件,只是每个文件少了相同的那一行,这个有什么简单一点的方法吗?我只能想到循环三个文件

论坛徽章:
21
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:23
发表于 2018-08-06 16:11 |显示全部楼层
本帖最后由 chengchow 于 2018-08-07 10:23 编辑

找出相同行再删除
sed -i "/$(grep $(grep -f 2.txt 3.txt) 1.txt 2>/dev/null | awk -F: '{print $NF}')/d" 1.txt 2.txt 3.txt
解释下
#!/bin/bash

same12=$(grep -f 1.txt 2.txt)
same123=$(grep $same12 3.txt 2>/dev/null | awk -F: '{print $NF}'

sed -i "/$same123/d" 1.txt 2.txt 3.txt

exit 0

不去纠结用一条命令完成,其实很简单

论坛徽章:
3
15-16赛季CBA联赛之青岛
日期:2018-07-09 14:17:2815-16赛季CBA联赛之八一
日期:2018-08-06 15:30:0515-16赛季CBA联赛之广东
日期:2018-08-09 09:11:21
发表于 2018-08-06 16:14 |显示全部楼层
本帖最后由 christmas1102 于 2018-08-06 16:40 编辑

回复 1# elaine2017
  1. awk 'ARGIND==1{a[$0]=$0;next}ARGIND==2{!a[$0]?b=b?b"\n"$0:$0:d=d?d"|"a[$0]:a[$0];next}ARGIND==3{if(!a[$0]){c=c?c"\n"$0:$0}}END{print b>"A2";print c>"A3";for(i in a){if(a[i]&&a[i]!~d){e=e?e"\n"a[i]:a[i]}};print e>"A1"}' A1 A2 A3
复制代码

评分

参与人数 1信誉积分 +5 收起 理由
elaine2017 + 5 很给力!

查看全部评分

论坛徽章:
0
发表于 2018-08-06 16:18 |显示全部楼层
回复 4# christmas1102

太厉害了

论坛徽章:
3
15-16赛季CBA联赛之青岛
日期:2018-07-09 14:17:2815-16赛季CBA联赛之八一
日期:2018-08-06 15:30:0515-16赛季CBA联赛之广东
日期:2018-08-09 09:11:21
发表于 2018-08-06 17:10 |显示全部楼层
回复 3# chengchow

  1. sed -i '/'"$(cat a b c|sort|uniq -d)"'/d' a b c
复制代码
也是一行 grep -xvFf 大概也是一样,就是写的多点

论坛徽章:
2
15-16赛季CBA联赛之八一
日期:2017-12-29 13:06:2315-16赛季CBA联赛之天津
日期:2018-08-08 17:39:46
发表于 2018-08-06 18:19 来自手机 |显示全部楼层
awk '!a[$0]++{print>FILENAME".bak"}' *.txt

论坛徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
发表于 2018-08-06 18:24 |显示全部楼层
本帖最后由 wh7211 于 2018-08-07 19:53 编辑

回复 1# elaine2017
回复 16# christmas1102


下面代码适用于“3个源文件中不会出现2个重复行记录的情况”。优化后的代码见18楼
  1. cat A1.txt
  2. A a 1
  3. j s a
  4. c d a

  5. cat A2.txt
  6. a j a
  7. b 1 2
  8. A a 1

  9. cat A3.txt
  10. i j 6
  11. A a 1
  12. j 3 4

  13. awk '{a[$0]=NR" "FILENAME;b[$0]++}END{PROCINFO["sorted_in"]="@val_num_asc";for(i in a){if(b[i]==3){delete a[i]}else{split(a[i],c);print i>c[2]}}}' A1.txt A2.txt A3.txt

  14. cat A1.txt
  15. j s a
  16. c d a

  17. cat A2.txt
  18. a j a
  19. b 1 2

  20. cat A3.txt
  21. i j 6
  22. j 3 4
复制代码

论坛徽章:
21
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:23
发表于 2018-08-07 10:33 |显示全部楼层
本帖最后由 chengchow 于 2018-08-07 10:34 编辑

回复 6# christmas1102

这样如果b c中有a没有也会被删除的,好像7楼的写法和你的一样,都会误删除的

论坛徽章:
0
发表于 2018-08-07 16:14 |显示全部楼层
本帖最后由 本友会机友会摄友会 于 2018-08-07 16:24 编辑

我想到2个解法:
1 powershell 是可以取集合的交集的。ab取交集,然后再和c取交集。然后遍历交集,每个文件删除交集。
2 遍历a文件的行,在b文件中找行。找到后,才去c文件删除(即找替)行。若删除成功,则去ab删除行。

方法1应该费内存,但快。

=============================
远程联网命令,有时候因为墙的问题,时通时断。
局域网,因网卡硬件,路由器,夏天过热。网线,网头接触不良,时通时断。
何以救命呢?powershell有try--catch,每个步骤可以try,
shell就尴尬了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

数据风云,十年变迁
DTCC 第十届中国数据库技术大会已启航!

2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度盛会和交流平台。与SACC2018类似,本届大会将采用“3+2”模式:3天传统技术演讲+2天深度主题培训。大会不仅提供超100场的主题演讲,还会提供连续2天的深度课程培训,深化数据领域的项目落地实践方案。
DTCC2019,一场值得期待的数据技术盛会,殷切地希望您报名参与!

活动入口>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP