免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 708 | 回复: 5
打印 上一主题 下一主题

[文本处理] 处理多次重复问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-22 10:03 |只看该作者 |倒序浏览
求助大家:

假如文本1里面有部分内容与文本2内容重复,且在文本2内对应不同标题,如何提取出来:

文本1 :           文本2:

@11                @aa
123                 123
@12                @bb
111                 123
                      @xx
                      222


生成:
@aa
123
@bb
123

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2016-08-22 10:19 |只看该作者

$ awk 'FNR==NR{a[$0]=1;next}{if(/^@/){h=$0"\n";next}if(a[$0])print h$0}' 1 2
@aa
123
@bb
123

评分

参与人数 1信誉积分 +25 收起 理由
xunong + 25

查看全部评分

论坛徽章:
4
程序设计版块每日发帖之星
日期:2016-08-11 06:20:00数据库技术版块每日发帖之星
日期:2016-08-13 06:20:00程序设计版块每日发帖之星
日期:2016-08-14 06:20:00数据库技术版块每日发帖之星
日期:2016-08-14 06:20:00
3 [报告]
发表于 2016-08-22 17:20 |只看该作者
awk写不来,用笨一点的方法,写个小脚本吧。
  1. #!/bin/bash

  2. arr=(`cat file1 | egrep '^[0-9]+'`)

  3. for item in ${arr[@]}
  4. do
  5.     cat file2 | grep -B 1 $item | tee -a  output
  6. done
复制代码

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
4 [报告]
发表于 2016-08-22 22:25 |只看该作者
本帖最后由 wh7211 于 2016-08-22 22:27 编辑

假如文本1里面有部分内容与文本2内容重复,且在文本2内对应不同标题,如何提取出来
  1. awk 'ARGIND==1&&$1~/^@/{s=$1;next}ARGIND==1{a[$1]=s;next}$1~/^@/{t=$1;next}{if(a[$1]&&a[$1]!=t)print t"\n"$1}' 1 2
  2. @aa
  3. 123
  4. @bb
  5. 123
复制代码

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
5 [报告]
发表于 2016-08-23 09:26 |只看该作者
  1. awk 'NR==FNR{a[$1]=$1;next}{if(a[$1]){print test"\n"a[$1]}{test=$0}}' 1 2
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
6 [报告]
发表于 2016-08-23 09:52 |只看该作者
more 1 2
  1. ::::::::::::::
  2. 1
  3. ::::::::::::::
  4. @11
  5. 123
  6. @12
  7. 111
  8. ::::::::::::::
  9. 2
  10. ::::::::::::::
  11. @aa
  12. 123
  13. @bb
  14. 123
  15. @xx
  16. 222
  17. @11
  18. 123
复制代码
  1. awk 'NR==FNR&&/@/{getline x;a[x]=$0 RS x}/@/{getline x;if(a[x]&&a[x]!=$0 RS x)print $0 RS x}' 1 2
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP