免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3674 | 回复: 18
打印 上一主题 下一主题

[文本处理] [已解决]求助,如何删除特定位置出现重复字符的行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-08-15 09:32 |只看该作者 |倒序浏览
本帖最后由 _伊飞_ 于 2014-08-15 10:20 编辑

大家好。
现有如下所示的文件,其中第三列是一些特定的字符串(最多3位,位置在第14-16个字符,如果是三个字母的话,和后面第四列之间就没有空格),第六列是一列数字(最多3位,位置在第24-26个字符,和前面第五列之间有空格),现在要做如下处理:
对于第六列数字相同的行,如果第三列中的字符串重复出现,则保留第一次出现的行,重复出现的行都删掉。比如在这个文本中,应删掉倒数两行和倒数第四行,其它的全部保留。
谢谢大虾帮忙!
xxxx     xx  A   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  B   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  C   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  D   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  AB  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  BC  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  CD  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  EFG xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  LMN xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  A  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  B  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  C  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  D  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  A  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  B  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  C  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  D  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  AB xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  CD xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  AB xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  x

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
2 [报告]
发表于 2014-08-15 09:53 |只看该作者
  1. awk '{a=length($3)>3?substr($3,1,3)$5:$3$6}!b[a]++'  urfile
复制代码

论坛徽章:
9
寅虎
日期:2013-12-02 12:49:22巨蟹座
日期:2014-07-18 18:13:34卯兔
日期:2014-07-25 14:43:08子鼠
日期:2014-07-26 10:10:51酉鸡
日期:2014-07-31 15:09:562015亚冠之本尤德科
日期:2015-05-19 09:27:382015亚冠之卡尔希纳萨夫
日期:2015-06-20 10:30:212015亚冠之阿尔纳斯尔
日期:2015-07-01 20:46:062015亚冠之城南
日期:2015-07-15 21:12:00
3 [报告]
发表于 2014-08-15 09:54 |只看该作者
是否所有列都是按tab对齐的?

论坛徽章:
0
4 [报告]
发表于 2014-08-15 09:57 |只看该作者
回复 2# 关阴月飞

谢谢,但是不能执行,提示这个呢
b[a]++: Event not found.
   

论坛徽章:
9
2015亚冠之大阪钢巴
日期:2015-06-04 11:47:30丑牛
日期:2015-01-22 15:49:26巳蛇
日期:2015-01-22 10:11:18巨蟹座
日期:2014-11-20 10:55:03天蝎座
日期:2014-11-16 22:10:26处女座
日期:2014-11-16 11:01:10申猴
日期:2014-09-19 11:12:37双鱼座
日期:2014-07-25 10:09:54程序设计版块每日发帖之星
日期:2015-08-24 06:20:00
5 [报告]
发表于 2014-08-15 09:58 |只看该作者
  1. cat urfile
  2.    xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  3. xxxx     xx  B   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  4. xxxx     xx  C   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  5. xxxx     xx  D   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  6. xxxx     xx  AB  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  7. xxxx     xx  BC  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  8. xxxx     xx  CD  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  9. xxxx     xx  EFG xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  10. xxxx     xx  LMN xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  11. xxxx     xx  A  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  12. xxxx     xx  B  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  13. xxxx     xx  C  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  14. xxxx     xx  D  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  15. xxxx     xx  A  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  16. xxxx     xx  B  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  17. xxxx     xx  C  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  18. xxxx     xx  D  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  19. xxxx     xx  AB xxxx x  10      xxxxxx  xxxxxx  xxxxxx  1
  20. xxxx     xx  CD xxxx x  10      xxxxxx  xxxxxx  xxxxxx  2
  21. xxxx     xx  AB xxxx x  10      xxxxxx  xxxxxx  xxxxxx  3
  22. xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  4
  23. xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  5
  24. xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  6
  25. $ awk '{a=substr($0,14,3);b=substr($0,25,2)};!c[b,a]++' urfile
  26.    xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  27. xxxx     xx  B   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  28. xxxx     xx  C   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  29. xxxx     xx  D   xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  30. xxxx     xx  AB  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  31. xxxx     xx  BC  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  32. xxxx     xx  CD  xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  33. xxxx     xx  EFG xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  34. xxxx     xx  LMN xxx x   8      xxxxxx  xxxxxx  xxxxxx  x
  35. xxxx     xx  A  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  36. xxxx     xx  B  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  37. xxxx     xx  C  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  38. xxxx     xx  D  xxxx x   9      xxxxxx  xxxxxx  xxxxxx  x
  39. xxxx     xx  A  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  40. xxxx     xx  B  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  41. xxxx     xx  C  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  42. xxxx     xx  D  xxxx x  10      xxxxxx  xxxxxx  xxxxxx  x
  43. xxxx     xx  AB xxxx x  10      xxxxxx  xxxxxx  xxxxxx  1
  44. xxxx     xx  CD xxxx x  10      xxxxxx  xxxxxx  xxxxxx  2
  45. xxxx     xx  ABCxxxx x  10      xxxxxx  xxxxxx  xxxxxx  4
复制代码

论坛徽章:
0
6 [报告]
发表于 2014-08-15 09:59 |只看该作者
回复 3# lifayi2008

不是tab,都是用空格,每列占的字符数是固定的,不够的就用空格补齐,是对齐的。
   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
7 [报告]
发表于 2014-08-15 10:01 |只看该作者
  1. awk '!a[substr($0,24,3),substr($0,14,3)]++' urfile
复制代码

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
8 [报告]
发表于 2014-08-15 10:07 |只看该作者
回复 7# blackold

这个应该是比例合适的, 因为楼主的文件其实不是严格分列的.
   

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
9 [报告]
发表于 2014-08-15 10:10 |只看该作者
回复 1# _伊飞_


    其实就是去除"第3列""第6列"重复的行。

论坛徽章:
0
10 [报告]
发表于 2014-08-15 10:10 |只看该作者
回复 7# blackold


谢谢你,但是也是提示跟前面类似的问题
a[substr: Event not found.   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP