免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2864 | 回复: 10
打印 上一主题 下一主题

[文本处理] awk级联求和 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-01-12 19:51 |只看该作者 |倒序浏览
例子:
中国人民解放军   淋巴   175
中国人民解放军   MaYo  61
中国人民解放军   MaYo  61
北京科    组织        100
北京科    组织        100
北京科医院    TCT     155
北京科医院    TCT     155
北京科医院    TCT     155
北京家医院       TCT  155
北京伦    组织        30
北京伦    免化        20
北京伦    组织        30
北京伦    免化        20
北京伦    组织        30
北京伦    组织        30

统计出每个医院各个项目的次数和花费,类似:
中国人民解放军   淋巴   175    1  175
中国人民解放军   MaYo  61     2  122
北京科              组织    100   2  200
北京科医院        TCT     155   4  620  
北京伦    组织        30  4  120
北京伦    免化        20  2  40

我只能关联出一个维度,awk是否需要多个for循环,请大家赐教了,谢谢

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
2 [报告]
发表于 2016-01-12 21:59 |只看该作者
  1. awk '{if(!a[$0]) {c[++t]=$0} a[$0]+=$NF;b[$0]++;}END{for(i=1;i<=t;i++) print c[i],b[c[i]],a[c[i]]}' file
复制代码
回复 1# woaiyuehua


   

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
3 [报告]
发表于 2016-01-13 10:04 |只看该作者
declare -A  sum
while read org item fee; do let sum["$org $item $fee"]++; done  <<<"data"
for i in "${!sum[@]}"; do
    read _ __ fee <<<"$i"
    echo $i  ${sum[$i]} $((fee*${sum[$i]}))
done

评分

参与人数 1可用积分 +6 收起 理由
MMMIX + 6 赞一个!

查看全部评分

论坛徽章:
10
2015年亚洲杯之科威特
日期:2015-04-13 13:51:5315-16赛季CBA联赛之山东
日期:2016-01-16 18:35:0815-16赛季CBA联赛之广东
日期:2016-01-04 15:26:23程序设计版块每日发帖之星
日期:2015-11-13 06:20:002015亚冠之阿尔艾因
日期:2015-11-10 12:32:242015亚冠之阿尔沙巴布
日期:2015-05-15 18:26:49羊年新春福章
日期:2015-04-28 16:45:112015年亚洲杯之伊拉克
日期:2015-04-25 20:06:30羊年新春福章
日期:2015-04-13 13:53:2015-16赛季CBA联赛之八一
日期:2016-01-20 18:23:49
4 [报告]
发表于 2016-01-13 15:45 |只看该作者
本帖最后由 drakness 于 2016-01-13 15:45 编辑

python练练手
  1. import sys
  2. reload(sys)
  3. sys.setdefaultencoding( "utf-8" )
  4. STR=u'''中国人民解放军   淋巴   175
  5. 中国人民解放军   MaYo  61
  6. 中国人民解放军   MaYo  61
  7. 北京科    组织        100
  8. 北京科    组织        100
  9. 北京科医院    TCT     155
  10. 北京科医院    TCT     155
  11. 北京科医院    TCT     155
  12. 北京家医院       TCT  155
  13. 北京伦    组织        30
  14. 北京伦    免化        20
  15. 北京伦    组织        30
  16. 北京伦    免化        20
  17. 北京伦    组织        30
  18. 北京伦    组织        30
  19. '''
  20. open("column.txt", "w+").write(STR)
  21. F2 = open("column.txt",'r+')
  22. DIR={}
  23. for x in F2:
  24.     if DIR.get(x):
  25.         DIR[x]+=1
  26.     else:
  27.         DIR[x]=1
  28. for k in DIR:
  29.     print k.rstrip("\n"),DIR[k],int(k.split()[-1])*int(DIR[k])
  30. F2.close()
复制代码

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
5 [报告]
发表于 2016-01-13 16:40 |只看该作者
  1. [root@centra123 linux]# awk  '{a[$1 $2]=a[$1 $2]+$3;b[$1 $2]++}END{for(i in a){print i,a[i]/b[i],b[i],a[i]}}' file
  2. 北京伦免化 20 2 40
  3. 中国人民解放军淋巴 175 1 175
  4. 北京家医院TCT 155 1 155
  5. 北京科医院TCT 155 3 465
  6. 北京科组织 100 2 200
  7. 中国人民解放军MaYo 61 2 122
  8. 北京伦组织 30 4 120
复制代码

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
6 [报告]
发表于 2016-01-18 16:28 |只看该作者
  1. awk '{a[$1" "$2]+=$3;b[$1" "$2]++;c[$1" "$2]=$3}END{for(i in a)print i,c[i],b[i],a[i]}' file
复制代码

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
7 [报告]
发表于 2016-01-18 17:23 |只看该作者
[ 本帖最后由 九方流云 于 2016-01-18 17:27 编辑 ]

awk '{a[$1" "$2]=$3;b[$1" "$2]++}END{for(i in a){print i,a[i],b[i],a[i]*b[i]}}' file

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-10-11 06:20:0015-16赛季CBA联赛之山东
日期:2016-05-28 18:18:5615-16赛季CBA联赛之新疆
日期:2017-04-12 22:55:4715-16赛季CBA联赛之青岛
日期:2017-06-26 18:30:0315-16赛季CBA联赛之四川
日期:2017-09-04 12:27:0315-16赛季CBA联赛之福建
日期:2018-02-09 14:28:3315-16赛季CBA联赛之同曦
日期:2018-04-17 12:43:3415-16赛季CBA联赛之浙江
日期:2018-07-14 13:27:4015-16赛季CBA联赛之吉林
日期:2018-09-13 15:48:2915-16赛季CBA联赛之新疆
日期:2016-05-07 05:05:3215-16赛季CBA联赛之八一
日期:2016-03-14 12:32:06程序设计版块每日发帖之星
日期:2015-12-12 06:20:00
8 [报告]
发表于 2016-01-18 17:30 |只看该作者
awk '{a[$1" "$2]+=$3;b[$1" "$2]++;c[$1" "$2]=$3}END{slen=asorti(a,d);for(i=1;i<=slen;i++)print d[i],c[d[i]],b[d[i]],a[d[i]]}'
再来加个排序

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
9 [报告]
发表于 2016-01-26 14:43 |只看该作者
  1. awk '{a[$0]++;b[$0]+=$3}END{for(i in b)print i,a[i],b[i]}'
复制代码

论坛徽章:
12
程序设计版块每日发帖之星
日期:2016-01-28 06:20:00程序设计版块每周发帖之星
日期:2016-03-07 16:29:28程序设计版块每日发帖之星
日期:2016-02-04 06:20:00程序设计版块每日发帖之星
日期:2016-02-02 06:20:00每周论坛发贴之星
日期:2016-01-31 22:22:00程序设计版块每日发帖之星
日期:2016-02-01 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00每日论坛发贴之星
日期:2016-01-30 06:20:00程序设计版块每日发帖之星
日期:2016-01-30 06:20:00每日论坛发贴之星
日期:2016-01-29 06:20:00程序设计版块每日发帖之星
日期:2016-01-29 06:20:0015-16赛季CBA联赛之福建
日期:2016-04-06 14:19:05
10 [报告]
发表于 2016-01-26 15:09 |只看该作者
  1. awk '{a[$1 $2]=$3;b[$1 $2]++}END{for(i in a){print i,a[i],b[i],a[i]*b[i]}}' file |sort -r | column -t
复制代码
中国人民解放军淋巴   175  1  175
中国人民解放军MaYo  61   2  122
北京伦组织               30   4  120
北京伦免化               20   2  40
北京科组织               100  2  200
北京科医院TCT         155  3  465
北京家医院TCT         155  1  155
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP