论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-05-19 12:55 |只看该作者 |倒序浏览

本帖最后由 useinxinuanihc 于 2010-05-21 16:49 编辑

urfile 文件如下
PBCSPOFT0101 0
PBCSPOFT0101 96
PBCSPOFT0102 0
PBCSPOFT0102 6
PBCSPOFT0103 0
PBCSPOFT0103 8
PBCSPOFT0104 0
PBCSPOFT0105 0
PBCSPOFT0106 0
PBCSPOFT0107 0
PBCSPOFT0107 10
PBCSPOFT0108 0
我想删除第一个字段重复的且第二个字段为0的行,结果应该如下
PBCSPOFT0101 96
PBCSPOFT0102 6
PBCSPOFT0103 8
PBCSPOFT0104 0
PBCSPOFT0105 0
PBCSPOFT0106 0
PBCSPOFT0107 10
PBCSPOFT0108 0

学习后,对黑哥的解决思路的分析,分享给大家,感谢朋友们的回答!!!

awk 'NR==FNR{a[$1]++;next}$2!=0||a[$1]==1' urfile urfile
   |--^--| |--^--| |-^| |-^-|  |-^-----| |--^-| ---^--
      |    |    |  | |    |       |    |_第2次读数据文件
      |    |    |  | |    |       |_第1次读数据文件
      |    |    |  | |    |_以第一个字段为下标的数组的值为1,
      |    |    |  | |       即本行的第一个字段的值在数据文件中
      |    |    |  | |       是唯一的,这时也执行打印数据的默认
      |    |    |  | |       操作
      |    |    |  | |_第2个字段的值不是0时执行打印数据的默认操作
      |    |    |  |-----^--------|
      |    |    |       |_此时NR!=FNR,即第2次读数据文件时,本判断
      |    |    |       才开始起起作用
      |    |    |_到下一行,本行记录后面的匹配都被忽略掉,这个很重
      |    |       要,因为没有的话后面的匹配会被执行。
      |    |_以第一个字段为下标的数组记录每一个第一个字段值相同的行
      |       数,例如第一个字段值为 PBCSPOFT0107 的记录行数为2,那么
      |       a[PBCSPOFT0107]的值就为2,第一个字段值为 PBCSPOFT0106
      |       的记录行数为1,那么a[PBCSPOFT0106]的值就为1.
      |_NR:awk开始执行程序后所读取的数据行数
      FNR:与NR功用类似,不同的是awk每打开一个新文件,FNR便从0重新累计

文库|博客

blackold

大富大贵

论坛徽章:: 5

2楼 [报告]

发表于 2010-05-19 13:11 |只看该作者

awk 'NR==FNR{a[$1]++;next}$2!=0||a[$1]==1' urfile urfile

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

99超人 99超人当前离线禁止发言求职 : 技术支持/维好友博客消息论坛徽章: 0	3楼 [报告] 发表于 2010-05-19 13:49 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

useinxinuanihc

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2010-05-19 13:53 |只看该作者

太强了,非常感谢!
研究学习消化一下，我整了一上午没写出来

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iori809

巨富豪门

论坛徽章:: 0

5楼 [报告]

发表于 2010-05-19 14:17 |只看该作者

awk 'NR==FNR&&!($1 in array)&&$2!=0{array[$1]=$0}NR>FNR&&!($1 in array){array[$1]=$0}END{for(i in array){print array[i]}}' test92.txt test92.txt

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackold

大富大贵

论坛徽章:: 5

6楼 [报告]

发表于 2010-05-19 14:46 |只看该作者

回复 3# 99超人

这个代码是不是有问题呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

expert1

荣誉版主

论坛徽章:: 16

7楼 [报告]

发表于 2010-05-19 14:55 |只看该作者

~# awk '!($1 in a)||$2!=0{a[$1]=$0}END{for(i in a)print a[i]}' wocao
SPOFT0101 0
PBCSPOFT0108 0
PBCSPOFT0107 10
PBCSPOFT0106 0
PBCSPOFT0105 0
PBCSPOFT0104 0
PBCSPOFT0103 8
PBCSPOFT0102 6
PBCSPOFT0101 96

貌似逻辑关系有问题。5楼的办法比较好。