忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 550 | 回复: 3

[文本处理] 求一个awk匹配问题 [复制链接]

论坛徽章:
0
发表于 2017-09-12 13:46 |显示全部楼层
加入文件如下格式:
a 0
a 0
b 1
a 1
b 2
b 2
c 2
d 2


输出结果:
0 1 2
1 2 2
2 3 4

第一列是以源文件第二列作为数组下标
第二列输出需判断源文件第一列是否有重复,去除重复后的个数,比如0有两个a,只算1个
第三列就纯粹是输出有多少个,不考虑重复

一句话的awk没想好怎么写,如果只考虑无重复的计数比较简单,直接awk '{a[$2]++}END{for(i in a)print i,a[i]}'可以,但要考虑去重一起计算就不知道了

论坛徽章:
0
发表于 2017-09-12 13:53 |显示全部楼层
貌似知道了
awk '!b[$0]++{a[$2]++}{c[$2]++}END{for(i in a)print i,a[i],c[i]}'
验证了是对的

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之同曦
日期:2017-09-11 14:39:48
发表于 2017-09-12 17:51 |显示全部楼层
回复 1# joan8363

awk4.0+ >>>

  1. awk '{a[$2]++;!b[$2][$1]++}END{for(i in a){print i,length(b[i]),a[i]}}' file
复制代码


输出:
0 1 2
1 2 2
2 3 4


论坛徽章:
38
辰龙
日期:2013-08-21 15:45:19寅虎
日期:2014-06-09 12:52:17双鱼座
日期:2014-06-10 12:42:44巨蟹座
日期:2014-06-12 23:17:17戌狗
日期:2014-06-17 09:53:29未羊
日期:2014-10-10 13:45:41申猴
日期:2015-03-03 17:21:37亥猪
日期:2015-03-03 17:22:002015亚冠之广州富力
日期:2015-05-12 16:34:522015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:08平安夜徽章
日期:2015-12-26 00:06:30
发表于 2017-09-12 18:18 |显示全部楼层
  1. awk '!s[$1$2]++{a[$2]++}{b[$2]++}END{for(i in a)print i,a[i],b[i]}'   urfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

10张SACC2017门票等你来拿~

在数字化转型时代,云已成为万物智能的数字化大脑。而随着大数据应用、人工智能、移动互联网等技术的飞速发展,“智慧 +” 的概念正在深入到各行各业,提升企业效率,释放商业潜能,创造全新机遇。作为国内顶级技术盛会之一,2017 中国系统架构师大会(SACC2017)将于 10 月 19-21 日在北京新云南皇冠假日酒店震撼来袭。今年,大会以 “云智未来” 为主题,云集国内外顶级专家,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置 2 大主会场,18 个技术专场;邀请来自互联网、金融、制造业、电商等多个领域,100 余位技术专家及行业领袖来分享他们的经验;并将吸引 4000 + 人次的系统运维、架构师及 IT 决策人士参会,为他们提供最具价值的交流平台。
----------------------------------------
优惠时间:2017年10月19日前

活动链接>>
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP