免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: novemberrain
打印 上一主题 下一主题

删除文本中的重复行的问题 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-06-17 13:53 |只看该作者
原帖由 ThomasLiu83 于 2008-6-17 12:39 发表




awk '!a[$0]++' utfile

是几乎一致的意思吧...?

条件判断可以说基本一致,但是处理流程还是有差异的,cjaizss的脚本后续重复行不做任何处理,我这个脚本会对重复行一直计数

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
12 [报告]
发表于 2008-06-17 14:49 |只看该作者
  1. awk '!($0 in a) {a[$0];print}' urfile
复制代码

论坛徽章:
1
荣誉版主
日期:2011-11-23 16:44:17
13 [报告]
发表于 2008-06-17 14:54 |只看该作者
sort -u

论坛徽章:
0
14 [报告]
发表于 2008-06-17 15:00 |只看该作者
大家的思路都很值得学习,谢谢!

再增加点儿需求

待处理文本如下:
aaaa
bbbb

cccc
cccc

dddd
aaaa

bbbb
cccc
基本要求不变:去掉重复行,即:不管是相邻的或不相邻的重复行,均保留第一次出现的行,其后的重复行删除, 同时保持顺序不变
增加的要求:空行保持原样,不进行是否重复的处理

变成如下结果:
aaaa
bbbb

cccc

dddd

[ 本帖最后由 novemberrain 于 2008-6-17 15:03 编辑 ]

论坛徽章:
0
15 [报告]
发表于 2008-06-17 15:23 |只看该作者
原帖由 novemberrain 于 2008-6-17 15:00 发表
大家的思路都很值得学习,谢谢!

再增加点儿需求

待处理文本如下:
aaaa
bbbb

cccc
cccc

dddd
aaaa

bbbb
cccc
基本要求不变:去掉重复行,即:不管是相邻的或不相邻的重复行,均保留第一次出 ...


awk '{if(!a[$0]){print $0;a[$0]=1;}else{printf("\n");}}' ufile

论坛徽章:
0
16 [报告]
发表于 2008-06-17 16:26 |只看该作者
原帖由 ThomasLiu83 于 2008-6-17 15:23 发表


awk '{if(!a[$0]){print $0;a[$0]=1;}else{printf("\n");}}' ufile


目的达到了,但是直接把重复的行换成了空行
要求是保留空行,删除其他的重复行,呵呵

论坛徽章:
0
17 [报告]
发表于 2008-06-17 16:29 |只看该作者
awk '/^$/ && i {print $0;i++};!a[$0]++' file

[ 本帖最后由 jinl 于 2008-6-17 16:31 编辑 ]

论坛徽章:
0
18 [报告]
发表于 2008-06-17 16:30 |只看该作者
原帖由 novemberrain 于 2008-6-17 16:26 发表


目的达到了,但是直接把重复的行换成了空行
要求是保留空行,删除其他的重复行,呵呵


改成这样就可以了
awk '{if(!a[$0]){print $0;a[$0]=1;}else{if($0~"^$") print $0;}}' ufile

论坛徽章:
0
19 [报告]
发表于 2008-06-17 16:35 |只看该作者
原帖由 jinl 于 2008-6-17 16:29 发表
awk '/^$/ && i {print $0;i++};!a[$0]++' file


这个更强,不过说实话一开始没看懂,通过大家的例子明白了awk中的关联数组,谢谢!
不过,还是没看懂Shell_HAT 的

sed -n 'G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P' urfile

继续学习!

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
20 [报告]
发表于 2008-06-17 16:47 |只看该作者
原帖由 novemberrain 于 2008-6-17 15:00 发表
大家的思路都很值得学习,谢谢!

再增加点儿需求

待处理文本如下:
aaaa
bbbb

cccc
cccc

dddd
aaaa

bbbb
cccc
基本要求不变:去掉重复行,即:不管是相邻的或不相邻的重复行,均保留第一次出 ...

awk '!$0||!a[$0]++'

[ 本帖最后由 woodie 于 2008-6-17 18:48 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP