免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1724 | 回复: 6

[文本处理] 怎样过滤重复的 [复制链接]

论坛徽章:
0
发表于 2013-05-11 13:37 |显示全部楼层
有如下文本
b 0x123456
dosomething

b 0x234562
dosomething

b 0x345612
dosomething

b 0x88888
dosomething

b 0x234562
dosomething

b 0x123456
dosomething

=================期望 处理后结果,过滤掉重复的==================
b 0x123456
dosomething

b 0x234562
dosomething

b 0x345612
dosomething

b 0x88888
dosomething

论坛徽章:
4
白羊座
日期:2013-09-17 21:59:30技术图书徽章
日期:2013-10-12 22:16:03白羊座
日期:2013-10-14 11:01:40双子座
日期:2013-12-17 18:26:39
发表于 2013-05-11 14:07 |显示全部楼层
awk '/^b /{if(!a[$2]++){enable_print=1;print;next}else{enable_print=0}} enable_print' input

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2013-05-11 15:19 |显示全部楼层
  1. awk -vRS='' '!a[$0]++{s=s?s"\n\n"$0:$0}END{print s}'
复制代码

论坛徽章:
0
发表于 2013-05-11 15:26 |显示全部楼层
awk  '/^b/&&!($0 in a){t=$0;getline;a[t]=a[t]$0;}END{for(i in a)print i,"\n",a[i]}'

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
发表于 2013-05-11 15:35 |显示全部楼层
  1. awk 'BEGIN{FS="\n";RS=""} !a[$1]++{print $0 ORS}' infile
复制代码

论坛徽章:
0
发表于 2013-05-11 21:50 |显示全部楼层
这么多方法啊,谢谢各位,下周试试

论坛徽章:
0
发表于 2013-05-14 19:07 |显示全部楼层
  1. awk '{if(NR%3==1){head=$0;}if((NR%3==2)(a[head]="")){a[head]=$0;print head,"\n",a[head],"\n"}}'  yourfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

PostgreSQL中国大会,早鸟票抢购!

PostgreSQL中国大会,早鸟票抢购!
2019年11月29~11月30日,由 PostgreSQL中文社区与ITPUB联合主办的第九届《PostgreSQL 中国技术大会》将在北京隆重召开。PostgreSQL 作为功能最强的的开源关系型数据库之一,得到了越来越多企业的推广和运用,也越来越受到广大技术爱好者的欢迎和重视。这将是 PostgreSQL 的又一次交流盛会。




----------------------------------------

点击报名>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP