免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2223 | 回复: 14
打印 上一主题 下一主题

[文本处理] 如何对列取出绝对值最大的一列 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-09-12 13:34 |只看该作者 |倒序浏览
本帖最后由 clfsy 于 2016-09-12 16:53 编辑

sample 如下:
cat aa

aa f -0.001
aa f -0.045
aa f -0.022
bb f -0.034
bb f -0.003
bb f -0.001
cc f -0.033
cc f -0.045
cc f -0.022
dd f -0.002
dd f -0.021
dd f -0.011
dd f -0.031
处理后希望得到如下结果:(即判断第一列是否相同,如果相同则判断第三列,输出绝对值最大的那一行。)
aa f -0.045
bb f -0.034
cc f -0.045
dd f -0.031

能想到的 命令:  cat aa | sort -k1,1 -k3,3 -u , 但是还是有重复的第一列存在。
aa f -0.001
aa f -0.022
bb f -0.003
bb f -0.034
cc f -0.033
cc f -0.045
dd f -0.002
dd f -0.021





论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
2 [报告]
发表于 2016-09-12 13:57 |只看该作者
  1. awk '{a[$1" "$2]=a[$1" "$2]<$3?a[$1" "$2]:$3}END{for(n in a)print n,a[n]}' aa
复制代码

论坛徽章:
1
15-16赛季CBA联赛之福建
日期:2016-10-26 14:32:57
3 [报告]
发表于 2016-09-12 14:19 |只看该作者
cat aa | sort -k1,1 -k3,3 -u  ##-u是每一行所有域都一样才算去重复
cat aa | sort -k1,1 -k3,3n    ## -k3,3n表示要比较的是数字

##只要你显示奇数行就可以了
cat aa | sort -k1,1 -k3,3n|awk '{if(n++%2==0) print $0}'

aa f -0.022
bb f -0.034
cc f -0.045
dd f -0.021

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-09-12 14:54 |只看该作者

  1. echo 'aa f -0.001
  2. aa f -0.022
  3. bb f -0.034
  4. bb f -0.003
  5. cc f -0.033
  6. cc f -0.045
  7. dd f -0.002
  8. dd f -0.021
  9. ee f 0.001
  10. ee f 0.022'|awk 'function abs(v){return v<0?-v:v}{k=$1 FS $2;a[k]=abs(a[k])<abs($3)?a[k]=$3:a[k]}!b[k]++{c[++d]=k}END{for(;i++<d;)print c[i],a[c[i]]}'
复制代码

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
5 [报告]
发表于 2016-09-12 15:01 |只看该作者
  1. awk '{s=$3*$3}s>a[$1]{a[$1]=s;b[$1]=$0}END{for(i in b)print b[i]}'
复制代码

论坛徽章:
2
极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之新疆
日期:2017-02-06 17:31:41
6 [报告]
发表于 2016-09-12 15:31 |只看该作者
  1. sort file |awk 'NR%2==0'
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
7 [报告]
发表于 2016-09-12 16:23 |只看该作者
  1. perl -anle '@a=@F if(!@a||abs($a[-1])<abs($F[-1]));if(!($.%2)){print "@a";@a=()}' f
复制代码

论坛徽章:
0
8 [报告]
发表于 2016-09-12 16:49 |只看该作者
StarWingsss 发表于 2016-09-12 14:19
cat aa | sort -k1,1 -k3,3 -u  ##-u是每一行所有域都一样才算去重复
cat aa | sort -k1,1 -k3,3n    ## - ...

多谢指教,不过这边我举例不恰当, 例子里面每个第一列相同的行数只有2行,实际上这是一个不定数。
所以不是print 出奇数行就可以的。

我改一下sample。

谢谢。

论坛徽章:
0
9 [报告]
发表于 2016-09-12 16:54 |只看该作者

多谢高手指教, awk这个可以的。
不过不是特别明白,我再研究研究。


谢谢谢谢。

论坛徽章:
1
15-16赛季CBA联赛之福建
日期:2016-10-26 14:32:57
10 [报告]
发表于 2016-09-12 17:15 |只看该作者
本帖最后由 StarWingsss 于 2016-09-12 17:23 编辑

sort -t" " -k1,1 -k3,3n aa.txt |awk '{print $3,$2,$1}'| uniq -f2 -d|awk '{print $3,$2,$1}'
aa f -0.045
bb f -0.034
cc f -0.045
dd f -0.031

##uniq -fn n为数字,忽略前n个域,去重复,如
cat file
1 AK123 33 46 6u OPP ty yu
1 DK122 5h 67 y8 OPP ty yu
1 EK999 56 56 78 IIY ty yu
uniq -f5 -c 1link          ##即第六个域开始比较
2 AK123 33 46 6u OPP ty yu
1 EK999 56 56 78 IIY ty yu



本来awk部分想用rev来代替,可以容易有误差,不知道awk部分有没有其他更好的方法
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP