免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2014 | 回复: 9
打印 上一主题 下一主题

[文本处理] 如何标注文本A中第2列数据存在于文本B中的行? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-12-24 10:45 |只看该作者 |倒序浏览
有两个文本A.txt和B.txt,内容如下:
A.txt:
line1 123
line2 234
line3 345
line4 456

B.txt:
234
456

怎么样才能得到文本C.txt, 将文本A.txt中第2列数据含有文本B.txt的行标出,得到结果如(比如在第1列末尾加[*]):
C.txt:
line1        123
line2[*]    234
line3        345
line4[*]    456
谢谢!

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
2 [报告]
发表于 2013-12-24 11:00 |只看该作者
  1. awk 'NR==FNR{a[$0];next}$2 in a{$1=$1"[*]"}1' B.txt A.txt
复制代码

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:58:11
3 [报告]
发表于 2013-12-24 11:01 |只看该作者
  1. [root@everIover ~]# awk 'NR==FNR{a[$0]=$0;next}{for(i in a){if(a[i]==$2)t=$1"[*]"}printf("%-10s%s\n",t?t:$1,$2);t=""}' B.txt A.txt
  2. line1     123
  3. line2[*]  234
  4. line3     345
  5. line4[*]  456
  6. [root@everIover ~]# head A.txt B.txt
  7. ==> A.txt <==
  8. line1 123
  9. line2 234
  10. line3 345
  11. line4 456

  12. ==> B.txt <==
  13. 234
  14. 456
  15. [root@everIover ~]#
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2013-12-24 11:33 |只看该作者
  1. [root@localhost ~]# awk 'NR==FNR{a[$0];next}$2 in a{$1=$1"[*]"}1' b a
  2. line1 123
  3. line2[*] 234
  4. line3 345
  5. line4[*] 456
  6. [root@localhost ~]#
复制代码

论坛徽章:
0
5 [报告]
发表于 2013-12-24 11:33 |只看该作者
回复 2# WilliBhamlll


    太赞了,看的神魂颠倒啊,寥寥几行就搞定

论坛徽章:
0
6 [报告]
发表于 2013-12-24 11:35 |只看该作者
回复 3# 这个冬天不冷
这个比较通俗易懂,还能考虑到格式,谢谢


   

论坛徽章:
5
白羊座
日期:2014-10-28 11:23:27水瓶座
日期:2015-01-20 10:19:022015亚冠之柏斯波利斯
日期:2015-07-11 18:17:2015-16赛季CBA联赛之同曦
日期:2015-12-23 12:38:582016猴年福章徽章
日期:2016-02-18 15:30:34
7 [报告]
发表于 2013-12-24 11:49 |只看该作者
回复 2# WilliBhamlll
这个写法很精辟,Very Good

   

论坛徽章:
2
巨蟹座
日期:2013-12-07 16:51:13天秤座
日期:2013-12-11 15:12:14
8 [报告]
发表于 2013-12-24 21:41 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
9 [报告]
发表于 2013-12-24 23:34 |只看该作者
  1. awk  'NR==FNR{a[FNR]=$0;next}{for(i in a)if($2==a[i])$1=$1"[*]";print $0}' 2.txt  1.txt
复制代码

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
10 [报告]
发表于 2013-12-25 10:19 |只看该作者
本帖最后由 WilliBhamlll 于 2013-12-25 10:20 编辑

回复 8# lxzkenney
  1. awk 'NR==FNR{a[$1]=$1;next}{for(i=1;i++<NF;)if($i in a) print $1 "[*]  " a[$i]; else  print $1 " " $2}' B.txt A.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP