免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2445 | 回复: 10

[文本处理] awk或perl文件转换 [复制链接]

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-07-05 22:20:00
发表于 2014-10-10 15:14 |显示全部楼层
我这边有一个文件,内容如下:
aaa        1          50
aaa        2          55
bbb        1          80
bbb        2          86
bbb        3          87
aaa        3          60
aaa        4          60
aaa        5          70
aaa        6          65
aaa        7          78
ccc         3          56
ccc         4          70
aaa        8          25
aaa        9           40
aaa        10         23
ccc         6           34
aaa        11         24
aaa        12         45
需要转成如下排列格式,总列数是13,第一列为名字,后面分别是12列的值,如果该列没有值的话就用空格代替
aaa,50,55,60,60,70,65,78,25,40,23,24,45
bbb,80,86,87, , , , , , , , , ,
ccc, , ,56,70, ,34, , , , , , ,

能否用AWK实现,perl也行,哪位大侠能实现或提供一下思路。多谢!

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
发表于 2014-10-10 15:22 |显示全部楼层
本帖最后由 ly5066113 于 2014-10-10 15:22 编辑

回复 1# yjs_sh


try:
  1. awk '{a[$1","$2]=$3;b[$1]}END{for(i in b){printf i;for(j=1;j<=12;j++)printf ","a[i","j];print ""}}' file
复制代码

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-07-05 22:20:00
发表于 2014-10-10 15:38 |显示全部楼层
回复 2# ly5066113

可以的,非常感谢!!


   

论坛徽章:
130
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2014-10-10 15:39 |显示全部楼层
回复 1# yjs_sh

$ awk '!s[$1]++{N[++c]=$1}{a[$1,$2]=$3;if(m<$2)m=$2}END{for(t=1;t<=c;t++){printf N[t];for(n=1;n<=m;n++)printf","a[N[t],n];print""}}' FILE
aaa,50,55,60,60,70,65,78,25,40,23,24,45
bbb,80,86,87,,,,,,,,,
ccc,,,56,70,,34,,,,,,

   

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-07-05 22:20:00
发表于 2014-10-10 16:10 |显示全部楼层
ly5066113大侠的输出是ccc、bbb、aaa
jason680大侠的输出是aaa、bbb、ccc

a[$1","$2]=$3  这一句是什么意思?

论坛徽章:
130
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2014-10-10 16:12 |显示全部楼层
回复 5# yjs_sh

awk数组的学习心得
http://bbs.chinaunix.net/forum.p ... mp;fromuid=24785593

   

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-07-05 22:20:00
发表于 2014-10-10 16:42 |显示全部楼层
非常感谢各位,awk又进步了一点

论坛徽章:
3
丑牛
日期:2014-09-13 18:19:22摩羯座
日期:2014-10-10 17:43:02水瓶座
日期:2014-10-16 01:00:22
发表于 2014-10-10 17:39 |显示全部楼层
学生党:飘过~无聊Python试试

  1. #!/usr/bin/env python
  2. # -*- coding:utf-8 -*-
  3. "just for fun"

  4. import sys
  5. import fileinput

  6. list={}
  7. temp=''
  8. for x in fileinput.input(sys.argv[1]):
  9.         if not list.get(x.split()[0]):
  10.                 list[x.split()[0]]=[]
  11.         list[x.split()[0]].append(x.split()[2])
  12. for k,v in list.iteritems():
  13.         print k, ','.join(v)
复制代码
测试:
$ ./yhsafe.py yhsafe.txt
aaa 50,55,60,60,70,65,78,25,40,23,24,45
bbb 80,86,87
ccc 56,70,34

论坛徽章:
1
IT运维版块每日发帖之星
日期:2015-07-05 22:20:00
发表于 2014-10-10 17:56 |显示全部楼层
回复 8# 李满满
谢谢,不过python我没弄过:wink:

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
发表于 2014-10-11 11:14 |显示全部楼层
awk 4.0
  1. $ awk '{a[$1][$2]=$3}END{for(i in a){printf i;for(j=0;j++<12;)printf ","a[i][j];print ""}}' i
  2. aaa,50,55,60,60,70,65,78,25,40,23,24,45
  3. ccc,,,56,70,,34,,,,,,
  4. bbb,80,86,87,,,,,,,,,
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会 限时9.5折

【架构革新 高效可控】2020年8月17日~19日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP