免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 1523 | 回复: 6

[文本处理] awk判断如果第一列和第二列的值完全相同则取第三列的最大值 [复制链接]

论坛徽章:
0
发表于 2018-11-30 15:06 |显示全部楼层
本帖最后由 921129732 于 2018-12-03 09:49 编辑

现有一个文件名为1.txt,内容如下:

dawn_v3 android_app_category cid=6/dt=2018-11-27                                                                                          
dawn_v3 android_app_category cid=6/dt=2018-11-28
dawn_v3 stat_active p=0/cid=5/dt=2018-08-04
dawn_v3 stat_active p=0/cid=5/dt=2018-08-05
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-28/event_name=public_templates_1_purchase_0
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-29/event_name=public_templates_1_purchase_0
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-30/event_name=public_templates_1_purchase_0
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-28/event_name=public_templates_1_purchase_1
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-29/event_name=public_templates_1_purchase_1
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-30/event_name=public_templates_1_purchase_1
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-28/event_name=public_templates_1_purchase_show
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-29/event_name=public_templates_1_purchase_show
dawn_v3 stat_enhanced_event_split_cid5 dt=2018-01-30/event_name=public_templates_1_purchase_show
wps_vas_db wps_zt_vip_act_user_reward_split dt=2018-12-29
wps_vas_db wps_zt_vip_act_user_reward_split dt=2018-12-30
wps_vas_db wps_zt_vip_act_user_reward_split dt=2018-12-31



想比较每行非dt字段如果完全相同则取dt的日期最大值那一行的数据,期望得到的结果如下:
dawn_v3  android_app_category  cid=6/dt=2018-11-28
dawn_v3  stat_active  p=0/cid=5/dt=2018-08-05
dawn_v3  stat_enhanced_event_split_cid5  dt=2018-01-30/event_name=public_templates_1_purchase_0
dawn_v3  stat_enhanced_event_split_cid5  dt=2018-01-30/event_name=public_templates_1_purchase_1
dawn_v3  stat_enhanced_event_split_cid5  dt=2018-01-30/event_name=public_templates_1_purchase_show
wps_vas_db  wps_zt_vip_act_user_reward_split  dt=2018-12-31

请各位大神不吝赐教,感谢!

论坛徽章:
1
15-16赛季CBA联赛之同曦
日期:2017-03-19 09:57:50
发表于 2018-12-03 09:24 |显示全部楼层
本帖最后由 农民伯伯丶 于 2018-12-03 09:53 编辑

描述得不是太清楚,应该说上下两行的第一列、第二列的值如果相同,就取第二行的值(时间已经排好序了),我理解的结果是这样的

  1. awk '{if(a1==$1 && a2==$2 ) { a1=$1;a2=$2;a3=$3;a4=$4} else { print a1,a2,a3,a4; a1=$1;a2=$2;a3=$3;a4=$4;}}END{print a1,a2,a3,a4}' a.txt
复制代码


论坛徽章:
0
发表于 2018-12-03 09:44 |显示全部楼层
本帖最后由 921129732 于 2018-12-03 09:51 编辑

回复 2# 农民伯伯丶

感谢!描述的不是很清楚,想取到的结果就是非dt字段都相同的话就取dt最大值的那一行数据

论坛徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
发表于 2018-12-03 14:31 |显示全部楼层
回复 1# 921129732


  1. awk '{match($3,"(.*dt=)([^/]*)(.*)",a);b=$1$2a[1]a[3];if(c[b]<a[2]){c[b]=a[2];d[b]=NR"|"$0}}END{PROCINFO["sorted_in"]="@val_num_asc";for(i in d){sub(/^.*\|/,"",d[i]);print d[i]}}' 1.txt
复制代码

论坛徽章:
29
申猴
日期:2014-04-10 09:43:532015年迎新春徽章
日期:2015-03-04 09:58:112015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:09
发表于 2018-12-03 15:37 |显示全部楼层
回复 1# 921129732

  1. awk '{match($0,"dt=([^/]+)",a);p=gensub("dt[^/]+","","",$0);if(b[p]<a[1]) {e[p]=$0};if(!d[p]++) {c[++s]=p}}END{for(i=1;i<=s;i++) print e[c[i]]}' file
复制代码

论坛徽章:
0
发表于 2018-12-03 16:25 |显示全部楼层
回复 4# wh7211

太感谢了!

论坛徽章:
0
发表于 2018-12-03 16:25 |显示全部楼层
本帖最后由 921129732 于 2018-12-03 18:23 编辑

回复 5# zxy877298415

感谢感谢!另有一个不明白的地方想请教下,p=gensub("dt[^/]+","","",$0);if(b[p]<a[1]这里多了一个,""是做什么用的呢?我试了一下去掉一个""之后就会执行的慢一些...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

数据风云,十年变迁
DTCC 第十届中国数据库技术大会已启航!

2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度盛会和交流平台。与SACC2018类似,本届大会将采用“3+2”模式:3天传统技术演讲+2天深度主题培训。大会不仅提供超100场的主题演讲,还会提供连续2天的深度课程培训,深化数据领域的项目落地实践方案。
DTCC2019,一场值得期待的数据技术盛会,殷切地希望您报名参与!

活动入口>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP