免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 16638 | 回复: 25
打印 上一主题 下一主题

[文本处理] awk 统计单词 在行出现的次数 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-10-16 14:53 |只看该作者 |倒序浏览
#cat 1
a1 b1 a1 c1 a1a b1 b1 c1 a1a b1 a1 b1


需要达到的效果:
a1 = 3
b1 = 5
c1 = 3
a1a = 2

求大神,指点。。

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
2 [报告]
发表于 2013-10-16 14:58 |只看该作者
本帖最后由 reb00t 于 2013-10-16 14:59 编辑

回复 1# wang390750

  1.     awk '{for(i=1;i<=NF;i++)a[$i]++}END{for(i in a) print i"="a[i]}'
复制代码

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
3 [报告]
发表于 2013-10-16 15:01 |只看该作者
本帖最后由 关阴月飞 于 2013-10-16 15:02 编辑
  1. awk '{for(;i++<NF;)a[$i]++;for(i in a)print i" = "a[i]}' urfile
复制代码

论坛徽章:
0
4
发表于 2013-10-16 15:02
回复 2# reb00t


    这段语句OK,初学awk有些地方看不明白,能帮忙解释一下这段语句吗?

论坛徽章:
0
5 [报告]
发表于 2013-10-16 15:02 |只看该作者
回复 3# 关阴月飞


    这段语句OK,初学awk有些地方看不明白,能帮忙解释一下这段语句吗?

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
6 [报告]
发表于 2013-10-16 15:11 |只看该作者
回复 1# wang390750


    文件只有一行嘛?
  1. [seesea@UC ~]# echo "a1 b1 a1 c1 a1a b1 b1 c1 a1a b1 a1 b1" | tr ' ' '\n' | sort | uniq -c
  2.       3 a1
  3.       2 a1a
  4.       5 b1
  5.       2 c1
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2013-10-16 15:19 |只看该作者
  1. [root@localhost ~]# cat i
  2. a1 b1 a1 c1 a1a b1 b1 c1 a1a b1 a1 b1
  3. [root@localhost ~]# awk '{for(i=1;i<=NF;i++)if(!a[$i]++)b[++n]=$i;for(i=1;i<=n;i++)print b[i]" = "a[b[i]]}' i
  4. a1 = 3
  5. b1 = 5
  6. c1 = 2
  7. a1a = 2
  8. [root@localhost ~]#
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2013-10-16 15:39 |只看该作者
本帖最后由 Shell_HAT 于 2013-10-16 15:40 编辑

回复 5# wang390750
  1. for(;i++<NF;)
复制代码
依次遍历a1、b1、a1、c1......每一列
  1. a[$i]++
复制代码
创建一个哈希数组,数组的key是每一列的内容a1、b1、a1、c1......,数组的value是每一列出现的次数
  1. for(i in a)print i" = "a[i]
复制代码
输出统计的结果

论坛徽章:
0
9 [报告]
发表于 2013-10-16 15:46 |只看该作者
回复 8# Shell_HAT


    感谢。万分感谢。

论坛徽章:
5
丑牛
日期:2014-01-21 08:26:26卯兔
日期:2014-03-11 06:37:43天秤座
日期:2014-03-25 08:52:52寅虎
日期:2014-04-19 11:39:48午马
日期:2014-08-06 03:56:58
10 [报告]
发表于 2013-10-16 17:48 |只看该作者
  1. echo 'a1 b1 a1 c1 a1a b1 b1 c1 a1a b1 a1 b1' | perl6 -ne'say %(.words.Bag).fmt'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP