免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3438 | 回复: 10
打印 上一主题 下一主题

[文本处理] shell awk 获得重复次数 像表格一样输出 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-08-07 11:50 |只看该作者 |倒序浏览
本帖最后由 idjy 于 2015-08-07 13:02 编辑

a内容
1 a
2 b
3 c
4 a
1 b
1 c
2 b
2 d
1 a
3 a


如何通过shell,AWK等操作得到这样的结果
id a b c d
1  2 1 1 -
2  - 2 - 1
3  1 - 1 -
4  1 - - -


补充:abcd 未知 由第二列获得的所有唯一项组成

论坛徽章:
0
2 [报告]
发表于 2015-08-07 12:49 |只看该作者
本帖最后由 bianlimit 于 2015-08-07 12:49 编辑
  1. awk '{a[$1][$2]++;b[$2]}END{print "id a b c d";for(i in a){printf i" ";for(j in b){if(a[i][j]){printf a[i][j]" "}else{printf "- "}}print ""}}' FILE
  2. id a b c d
  3. 1 2 1 1 -
  4. 2 - 2 - 1
  5. 3 1 - 1 -
  6. 4 1 - - -
复制代码

论坛徽章:
0
3 [报告]
发表于 2015-08-07 13:01 |只看该作者
本帖最后由 idjy 于 2015-08-07 13:11 编辑

回复 2# bianlimit

多谢, 执行似乎出错。不过,思路大概了解了。

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
4 [报告]
发表于 2015-08-07 13:24 |只看该作者
回复 3# idjy


    2楼的命令, 需要 gawk 4.0+ 才行的

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
5 [报告]
发表于 2015-08-07 13:37 |只看该作者
  1. {
  2.         a[$1,$2]++
  3. }
  4. END{

  5.         for(i in a)
  6.         {
  7.                 split(i,idx,SUBSEP);
  8.                 b[idx[1]]++;
  9.                 c[idx[2]]++;
  10.         }
  11.         printf "序号\t";

  12.         for(i in c)
  13.         {
  14.                 printf i"\t";
  15.         }
  16.         printf "\n"

  17.         for(i in b)
  18.         {
  19.                 printf i"\t"
  20.                 for(j in c)
  21.                 {
  22.                         if((i,j) in a)
  23.                         {
  24.                                 printf a[i,j]"\t"
  25.                         }
  26.                         else
  27.                         {
  28.                                 printf "-\t"
  29.                         }
  30.                 }
  31.                 printf "\n"
  32.         }
  33. }
复制代码
  1. 序号    a       b       c       d
  2. 4       1       -       -       -
  3. 1       2       1       1       -
  4. 2       -       2       -       1
  5. 3       1       -       1       -
复制代码
awk -f yourawk.awk FILE

评分

参与人数 2可用积分 +10 信誉积分 +10 收起 理由
substr函数 + 10 赞一个!
MMMIX + 10 赞一个!

查看全部评分

论坛徽章:
0
6 [报告]
发表于 2015-08-07 13:42 |只看该作者
本帖最后由 bianlimit 于 2015-08-07 14:17 编辑
  1. awk '{b[$2]=$2;a[$1,$2]++;m[$1]}END{c=asort(b,n);o="id";for(i=1;i<=c;i++){o=o" "n[i]};print o;for(i=1;i<=length(m);i++){for(j in n){h=h" "(a[i,n[j]]?a[i,n[j]]:"-")}print i" "h;h=x}}' FILE
  2. id a b c d
  3. 1  2 1 1 -
  4. 2  - 2 - 2
  5. 3  1 - 1 -
  6. 4  1 - - -
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
7 [报告]
发表于 2015-08-07 14:52 |只看该作者
  1. awk '{a[$1" "$2]++;b[$1];c[$2]}END{printf "id ";for(i in c) {printf i"  "}print "";for(i in b){printf i"  ";for(j in c) {if(a[i" "j]) {printf a[i" "j]"  "} else printf "-  "}print ""}}' file
  2. id a  b  c  d  
  3. 1  2  1  1  -  
  4. 2  -  2  -  1  
  5. 3  1  -  1  -  
  6. 4  1  -  -  -  
复制代码
回复 1# idjy


   

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
8 [报告]
发表于 2015-08-07 20:28 |只看该作者
  1. awk 'function g(x){return e[x]?e[x]:"-"}{e[$1""$2]+=1}
  2. END{print "id a b c d";for(i=1;i<=4;i++){print i,g(i"a"),g(i"b"),g(i"c"),g(i"d")}}' file
  3. id a b c d
  4. 1 2 1 1 -
  5. 2 - 2 - 1
  6. 3 - - 1 -
  7. 4 1 - - -
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2015-08-08 01:12 |只看该作者
回复 1# idjy

awk '
{
  if(!a[$1, $2]++){
    if(!id[$1]++){
      ida[++idc] = $1;

    }
    if(!it[$2]++){
      ita[++itc] = $2;

      it_str = it_str " " $2
    }
  }
}
END{
  print "id" it_str;
  for(n=1; n<=idc; n++){
    str = N = ida[n];
    for(m=1; m<=itc; m++){
      str = str " " (a[N,ita[m]] ? a[N,ita[m]] : "-");
    }
    print str;
  }
}
' FILE | column -t
id  a  b  c  d
1   2  1  1  -
2   -  2  -  1
3   1  -  1  -
4   1  -  -  -

   

评分

参与人数 1信誉积分 +10 收起 理由
substr函数 + 10 赞一个!

查看全部评分

论坛徽章:
0
10 [报告]
发表于 2015-08-11 11:06 |只看该作者
本帖最后由 searchcu 于 2015-08-11 11:17 编辑

回复 1# idjy


awk '{ar[$2,$1]++;br[$2]}
END {
  if(!k){t="id";for(i in br){t=t" "i}print t;k=1}
  while(++a<=4)
  {       
    s=a;for(i in br){s=s" "(ar[i,a]+0)} print s;       
  }
}' <<EE | tr '0' '-' |column -t
1 a
2 b
3 c
4 a
1 b
1 c
2 b
2 d
1 a
3 a
EE


id  a  b  c  d
1   2  1  1  -
2   -  2  -  1
3   1  -  1  -
4   1  -  -  -
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP