免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3102 | 回复: 13
打印 上一主题 下一主题

[文本处理] 想要排个序求个最大值,帮看看谁有更高效的解决办法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-09-21 10:59 |只看该作者 |倒序浏览
要处理的文件:
  1. 24   4   12
  2. 25   49   12
  3. 23   46   12
  4. 25   85   12
  5. 23   15   12
  6. 24   41   12
  7. 23   95   12
复制代码
处理后的结果:
  1. 23   95   12
  2. 24   41   12
  3. 25   85   12
复制代码
我是这样做的:
  1. sort -k1,1n  -k2,2gr  file | awk '!a[$1]++'
复制代码
考虑到每个要处理的文件都在10万行以这,感觉这样做的效率不高,谁还有高效的解决办法?

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2012-09-21 11:07 |只看该作者
你这个代码处理10万行数据需要多长时间?

论坛徽章:
1
辰龙
日期:2014-05-22 11:38:58
3 [报告]
发表于 2012-09-21 11:16 |只看该作者
本帖最后由 winway1988 于 2012-09-21 16:47 编辑
  1. awk '{if(a[$1]<$2){a[$1]=$2;b[$1]=$3}}END{len=asorti(a,A);for(i=1;i<=len;++i)print A[i], a[A[i]], b[A[i]]}' urfile
复制代码

  1. awk '{if(b[$1]<$2){a[$1]=$1;b[$1]=$2;c[$1]=$0}}END{len=asort(a,A);for(i=1;i<=len;++i)print c[A[i]]}' urfile
复制代码

论坛徽章:
0
4 [报告]
发表于 2012-09-21 11:23 |只看该作者
回复 2# Shell_HAT


        一个300多M的文件执行时间是这样的
real    1m43.850s
user    1m43.387s
sys     0m1.513s

论坛徽章:
0
5 [报告]
发表于 2012-09-21 11:25 |只看该作者
本帖最后由 dahaoshanhe 于 2012-09-21 11:25 编辑

回复 3# winway1988
  1. real    0m4.411s
  2. user    0m4.223s
  3. sys     0m0.172s
复制代码
{:3_202:}   你的code挺快

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
6 [报告]
发表于 2012-09-21 11:51 |只看该作者
偷懒的办法。
  1. awk '{if(a[$1]<$2){a[$1]=$2;b[$1]=$3}}END{for (i in a) print i, a[i],b[i]|"sort -n" }' infile
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
7 [报告]
发表于 2012-09-21 12:10 |只看该作者
本帖最后由 blackold 于 2012-09-21 12:11 编辑

try:
  1. sort -s -k1,1n -k2,2gr urfile|sort -u -k1,1n
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2012-09-21 13:05 |只看该作者
回复 3# winway1988


    asorti是字典排序,可能不适合LZ的要求。

ps: gawk 4.0 支持数值排序。

论坛徽章:
1
辰龙
日期:2014-05-22 11:38:58
9 [报告]
发表于 2012-09-21 14:04 |只看该作者
@blackold @dahaoshanhe
   asorti是字典排序,可能不适合LZ的要求。

确实是这样

论坛徽章:
0
10 [报告]
发表于 2012-09-21 14:27 |只看该作者
本帖最后由 dahaoshanhe 于 2012-09-21 14:27 编辑

感谢 @rdcwayx
       @winway1988
       @ blackold
三位指点~~
~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP