免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345下一页
最近访问板块 发新帖
查看: 19994 | 回复: 47
打印 上一主题 下一主题

如何用awk按组合关键字删除重复行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-05-19 12:55 |只看该作者 |倒序浏览
本帖最后由 useinxinuanihc 于 2010-05-21 16:49 编辑

urfile 文件如下
PBCSPOFT0101    0
PBCSPOFT0101    96
PBCSPOFT0102    0
PBCSPOFT0102    6
PBCSPOFT0103    0
PBCSPOFT0103    8
PBCSPOFT0104    0
PBCSPOFT0105    0
PBCSPOFT0106    0
PBCSPOFT0107    0
PBCSPOFT0107    10
PBCSPOFT0108    0
我想删除第一个字段重复的且第二个字段为0的行,结果应该如下
PBCSPOFT0101    96
PBCSPOFT0102    6
PBCSPOFT0103    8
PBCSPOFT0104    0
PBCSPOFT0105    0
PBCSPOFT0106    0
PBCSPOFT0107    10
PBCSPOFT0108    0

学习后,对黑哥的解决思路的分析,分享给大家,感谢朋友们的回答!!!

awk 'NR==FNR{a[$1]++;next}$2!=0||a[$1]==1' urfile urfile
     |--^--| |--^--| |-^| |-^-|  |-^-----| |--^-| ---^--
        |       |      |  | |      |          |      |_第2次读数据文件
        |       |      |  | |      |          |_第1次读数据文件
        |       |      |  | |      |_以第一个字段为下标的数组的值为1,
        |       |      |  | |        即本行的第一个字段的值在数据文件中
        |       |      |  | |        是唯一的,这时也执行打印数据的默认
        |       |      |  | |        操作
        |       |      |  | |_第2个字段的值不是0时执行打印数据的默认操作
        |       |      |  |-----^--------|
        |       |      |        |_此时NR!=FNR,即第2次读数据文件时,本判断
        |       |      |          才开始起起作用
        |       |      |_到下一行,本行记录后面的匹配都被忽略掉,这个很重
        |       |        要,因为没有的话后面的匹配会被执行。
        |       |_以第一个字段为下标的数组记录每一个第一个字段值相同的行
        |         数,例如第一个字段值为 PBCSPOFT0107 的记录行数为2,那么
        |         a[PBCSPOFT0107]的值就为2,第一个字段值为 PBCSPOFT0106
        |         的记录行数为1,那么a[PBCSPOFT0106]的值就为1.
        |_NR:awk开始执行程序后所读取的数据行数
          FNR:与NR功用类似,不同的是awk每打开一个新文件,FNR便从0重新累计

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
2 [报告]
发表于 2010-05-19 13:11 |只看该作者
  1. awk 'NR==FNR{a[$1]++;next}$2!=0||a[$1]==1' urfile urfile
复制代码

求职 : 技术支持/维
论坛徽章:
0
3 [报告]
发表于 2010-05-19 13:49 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
4 [报告]
发表于 2010-05-19 13:53 |只看该作者
太强了,非常感谢!
研究学习消化一下,我整了一上午没写出来

论坛徽章:
0
5 [报告]
发表于 2010-05-19 14:17 |只看该作者
awk 'NR==FNR&&!($1 in array)&&$2!=0{array[$1]=$0}NR>FNR&&!($1 in array){array[$1]=$0}END{for(i in array){print array[i]}}' test92.txt test92.txt

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2010-05-19 14:46 |只看该作者
回复 3# 99超人


    这个代码是不是有问题呢?

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
7 [报告]
发表于 2010-05-19 14:55 |只看该作者
~# awk '!($1 in a)||$2!=0{a[$1]=$0}END{for(i in a)print a[i]}' wocao
SPOFT0101    0
PBCSPOFT0108    0
PBCSPOFT0107    10
PBCSPOFT0106    0
PBCSPOFT0105    0
PBCSPOFT0104    0
PBCSPOFT0103    8
PBCSPOFT0102    6
PBCSPOFT0101    96

貌似逻辑关系有问题。5楼的办法比较好。

论坛徽章:
0
8 [报告]
发表于 2010-05-19 14:59 |只看该作者
回复 7# expert1


     有点意思啊~呵呵

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
9 [报告]
发表于 2010-05-19 15:06 |只看该作者
回复 5# iori809


    梦-呆呆,逻辑不对吧?

论坛徽章:
0
10 [报告]
发表于 2010-05-19 15:09 |只看该作者
借宝地问一下
只对第一列做个消重,然后打印消重后第一列内容怎么做?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP