免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 872 | 回复: 2

[文本处理] awk合并有重复的表格 [复制链接]

论坛徽章:
0
发表于 2018-10-12 09:28 |显示全部楼层
本帖最后由 tzaiit168 于 2018-10-12 09:31 编辑

有三个文件,file1
peg.1 x
peg.2 y
peg.3 z
peg.4 u
peg.5 v
file2
peg.2 VOG2
peg.2 VOG3
peg.3 VOG4

file3
VOG1 aa
VOG2 bb
VOG3 cc
VOG4 dd
VOG5 ee
VOG6 ff

合并成
peg.1 x
peg.2 y VOG2bb
peg.2 y VOG3cc
peg.3 z VOG4dd
peg.4 u
peg.5 v

file1和file3的每行,以及每一列的每个单元格都不同。就是说file1的第一列从peg.1到peg.5只有唯一的五行。主要是file2里面同一个peg对应不同的VOG,file2里的peg和VOG分别在file里和file3里可以找到。不知道怎么处理file2的重复。大神帮帮忙,给点建议把,谢谢

论坛徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
发表于 2018-10-12 19:57 |显示全部楼层
本帖最后由 wh7211 于 2018-10-12 20:00 编辑

回复 1# tzaiit168


  1. cat file1
  2. peg.1        x
  3. peg.2        y
  4. peg.3        z
  5. peg.4        u
  6. peg.5        v

  7. cat file2
  8. peg.2        VOG2
  9. peg.2        VOG3
  10. peg.3        VOG4

  11. cat file3
  12. VOG1        aa
  13. VOG2        bb
  14. VOG3        cc
  15. VOG4        dd
  16. VOG5        ee
  17. VOG6        ff

  18. awk 'FILENAME==ARGV[1]{a[$1]=a[$1]?a[$1]" "$2:$2;next}FILENAME==ARGV[2]{b[$1]=$2;next}a[$1]{d=split(a[$1],c);for(i=1;i<=d;i++){print $0,c[i],b[c[i]]};next}1' file2 file3 file1
  19. peg.1        x
  20. peg.2        y VOG2 bb
  21. peg.2        y VOG3 cc
  22. peg.3        z VOG4 dd
  23. peg.4        u
  24. peg.5        v
复制代码

论坛徽章:
0
发表于 2018-10-18 16:30 |显示全部楼层
回复 2# wh7211

谢谢!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

数据风云,十年变迁
DTCC 第十届中国数据库技术大会已启航!

2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京隆重召开。大会将邀请百余位行业专家,就热点技术话题进行分享,是广大数据领域从业人士的又一次年度盛会和交流平台。与SACC2018类似,本届大会将采用“3+2”模式:3天传统技术演讲+2天深度主题培训。大会不仅提供超100场的主题演讲,还会提供连续2天的深度课程培训,深化数据领域的项目落地实践方案。
DTCC2019,一场值得期待的数据技术盛会,殷切地希望您报名参与!

活动入口>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP