免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5000 | 回复: 3
打印 上一主题 下一主题

[文本处理] 根据域比较输出序号 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-08 19:11 |只看该作者 |倒序浏览
11        elex337_u000014        9        0
12        elex337_Golden214        14        0
14        elex337_u000017        9        0
15        elex337_u000019        11        0
16        elex337_u000020        9        0
17        elex337_Lokio        9        0
18        elex337_u000022        19        0
19        elex337_u000023        11        0
20        elex337_u000024        14        0
21        elex337_swordas15        9        0
22        elex337_Koann        19        0
23        elex337_Vylex        26        0
24        elex337_u000028        19        0
25        elex337_u000014        1        0
26        elex337_Golden214        35        1
27        elex337_u000016        0        0
28        elex337_u000017        22        0
29        elex337_u000019        10        0
30        elex337_u000020        11        0
31        elex337_Lokio        9        0
32        elex337_u000022        9        0
33        elex337_u000023        32        0
34        elex337_u000024        9        0
35        elex337_swordas15        22        0
36        elex337_Koann        11        0
37        elex337_Vylex        22        0
39        elex337_u000042        11        0
40        elex337_u000043        10        0
我有这样一堆数据,这个模式大约3w条
我希望判断出第二个域内重复的选项。然后重复的选项比较第四个域的大小,取出小的输出第一个域,如果相同比较第三个域的大小,同样取出小的输出第一个域,若还是相同则输出第一个,这个该如何写脚本或者awk判断?
求各位大神指教!

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
2 [报告]
发表于 2013-08-08 19:18 |只看该作者
  1. sort -k2,2 -k4,4n -k3,3n -k1,1n < infile |awk '!a[$2]++'
复制代码

论坛徽章:
0
3 [报告]
发表于 2013-08-08 21:16 |只看该作者
回复 2# rdcwayx


    多谢~很有效,虽然没输出第一项,但问题不大

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
4 [报告]
发表于 2013-08-09 06:22 |只看该作者
回复 3# blueghost_mt
  1. 25        elex337_u000014        1        0
  2. 11        elex337_u000014        9        0
复制代码
第一行和 25 这行比较的话,应该输出25 这行,命令没错,除非有另有想法。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP