免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2454 | 回复: 7
打印 上一主题 下一主题

如何删掉某一个域相同的重复的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-07-05 23:13 |只看该作者 |倒序浏览
有一个文本,形式如下:
aaa:bbb:cccc:dddd
bbb:111:dddd:yyyy
222:bbb:3333xxx
vvv:aaa:pppp:jjjjjj
ooo:bbbxxxx:vvvv
假如现在我想把只要是第二域相同的行,只显示第一行,其余的行删除,用shell怎么实现,没想到好的办法,请高手赐教!多谢!

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
2 [报告]
发表于 2007-07-05 23:45 |只看该作者
try:
awk -F: '!a[$2]++'

论坛徽章:
0
3 [报告]
发表于 2007-07-05 23:56 |只看该作者
烈火兄,我试验了你的code ,没问题,但 !a[$2]++是什么意思?偶系新手不太明白,请指教,另 我是这样写的awk -F ':' '{if($2=line) print $0;line=$2}' 但实验结果不正确,请烈火兄赐教,不胜感谢!!!

论坛徽章:
0
4 [报告]
发表于 2007-07-05 23:57 |只看该作者
上面我的code写错了应当是
awk '{if ($2!=line) print;line=$0}' file

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
5 [报告]
发表于 2007-07-06 09:08 |只看该作者
原帖由 寂寞烈火 于 2007-7-5 23:45 发表
try:
awk -F: '!a[$2]++'


赞一个。
又学了一招。

论坛徽章:
0
6 [报告]
发表于 2007-10-27 11:06 |只看该作者
awk '{if ($2!=line) print;line=$0}' file
这种写法理论上应该是对的,但是前提是重复的行都是相邻的情况下才行,像前面给的文件内容,显然是不对的
可以用另一种方法,即先排序然后再排重
sort -t: -k2 test2.txt|awk '{if ($2!=line) print;line=$0}' file
试过了,这种是可以的,关键是排序后源文件的顺序就乱了,保留下来的行的顺序可能跟你想要的不一样,还是寂寞烈火  的写法猛

论坛徽章:
0
7 [报告]
发表于 2007-10-27 15:50 |只看该作者
awk -F: '!a[$2]++' 很猛
但是一直没看懂

论坛徽章:
0
8 [报告]
发表于 2007-10-27 16:27 |只看该作者
原帖由 shihk 于 2007-10-27 15:50 发表
awk -F: '!a[$2]++' 很猛
但是一直没看懂


-F:  表示用:作分隔符

在awk中,表达式由  条件{} 组成,其中,{...}是操作,如果省略的话,就表示 print $0 就是打印读取到的行
a[$2]++ 表示用第二个字段做数组的下标(awk中,数组都是关联数组,即 key=>value),同时将这个数组项+1
!a[$2]++ 是先对数组项a[$2]进行非逻辑判断,如果a[$2]为空、不存在、0的话,逻辑表达式的结果为true,判断完成后,对a[$2]进行+1运算
因为这个表达式中没有{},因此,用缺省的print $0来操作

因此,!a[$2]++就表示,如果第二个字段的字符串第一次出现的话,就打印本行的内容,否则略过不操作


不知道这样解释你是否满意
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP