免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 24594035 | 回复: 24594035
打印 上一主题 下一主题

[文本处理] awk取数据 [复制链接]

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-22 17:43 |只看该作者 |倒序浏览
今天在群里看到一个问题,文件如下
a  1  2
b  1  2
a   2  2  
要结果如下
b  1  2
a   3  4  
就是如果文件中的第一列有相同的,就把相同的那些行的其他字段相加,大家可以看一下如何做,我有个思路写出了语句,但是报错,希望大神可以给出自己的awk语句,然后指点一下我的错误,
awk 'if(a[$1]==0){b[NR]=$2;c[NR]=$3}else{a[NR]=$1;b[NR]+=$2;c[NR]+=$3}END{for(i in a){print i,b[i],c[i]}}'  file
报错如下:
awk: if(a[$1]==0){b[NR]=$2;c[NR]=$3}else{a[NR]=$1;b[NR]+=$2;c[NR]+=$3}END{for(i in a){print i,b[i],c[i]}}
awk: ^ syntax error

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-07-22 17:53 |只看该作者
  1. awk '{a[$1,2]+=$2;b[$1,3]+=$3}END{for(i in a){split(i,t,SUBSEP);print t[1],a[t[1],2],b[t[1],3]}}' file
复制代码

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
3 [报告]
发表于 2015-07-22 18:26 |只看该作者
本帖最后由 hjfeng1988 于 2015-07-22 18:30 编辑
  1. awk '{if(a[$1]++==0){b[$1]=$2;c[$1]=$3}else{b[$1]+=$2;c[$1]+=$3}}END{for(i in a)print i,b[i],c[i]}' file
复制代码
if属于action要包含在{}中
if(a[$1]==0)只对前两行起作用
b[NR]针对行创建数组,每行的值达不到:第一列相同,其他字段相加。


表述有误,if(a[$1]==0)每行都起作用,但都是真的,没有执行else
b[NR]针对行创建数组,第一行的时候b[1],第三行的时候b[3],达不到相加的效果

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
4 [报告]
发表于 2015-07-22 18:55 |只看该作者
回复 1# 九方流云


    直接使用 gawk 的 multidimensional array 即可:

  1. {
  2.     for (i = 2; i <= NF; i++) {
  3.         r[$1][i] += $i
  4.     }
  5. }

  6. END {
  7.     for (i in r) {
  8.         printf "%s", i
  9.         for (j in r[i]) {
  10.             printf " %s", r[i][j]
  11.         }
  12.         printf "\n"
  13.     }
  14. }
复制代码
如果没有 multidimensional array 支持, 那就把 $1 单独放在一个数组中.

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2015-07-22 18:58 |只看该作者
回复 1# 九方流云

awk初学之常见问题
http://bbs.chinaunix.net/thread-2309494-1-1.html

   

论坛徽章:
1
15-16赛季CBA联赛之佛山
日期:2016-04-20 15:50:45
6 [报告]
发表于 2015-07-22 23:03 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
7 [报告]
发表于 2015-07-23 10:48 |只看该作者
回复 2# haooooaaa
多维数组啊,学习一下,

   

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
8 [报告]
发表于 2015-07-23 10:49 |只看该作者
本帖最后由 九方流云 于 2015-07-23 10:51 编辑

回复 3# hjfeng1988
分析的太好了!多谢大神解惑,我还是基础没打好,

   

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
9
发表于 2015-07-23 10:50
回复 5# jason680
多谢大神雪中送炭,这正是我需要的东东,对论坛还不熟悉,原来精华帖这么多好东东,

   

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2015-08-06 06:20:00
10 [报告]
发表于 2015-07-23 11:07 |只看该作者
回复 4# MMMIX
多谢大神指点,学习一下这个用法,

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP