免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 702 | 回复: 4

[文本处理] 多行合并 [复制链接]

论坛徽章:
0
发表于 2018-08-28 09:45 |显示全部楼层
各位大神好,现有如下文件:
Pos        Gene        Case        Sample        Apcnt        Mut        Total        Mut
chr1.11188078.C.A        MTOR        SJALL013791        O4        0.043        29        67510        A
chr1.115256528.T.G        NRAS        SJALL013791        D1        0.073        34        46390        G
chr1.115256530.G.T        NRAS        SJALL013791        O4        0.062        44        70979        T
chr1.115256530.G.T        NRAS        SJALL013791        R1        0.04        36        89427        T
chr1.115258744.C.T        NRAS        SJALL013791        D1        1.005        585        58203        T
chr1.115258744.C.T        NRAS        SJALL013791        O2        0.029        19        66608        T
chr1.115258744.C.T        NRAS        SJALL013791        R1        20.799        22079        106155        T
chr1.14107249.C.T        PRDM2        SJALL013791        R1        0.092        9        9801        T
chr1.149878236.C.T        SV2A        SJALL013791        D1        0.38        168        44198        T
chr1.149878236.C.T        SV2A        SJALL013791        O2        0.079        34        43289        T
chr1.149878236.C.T        SV2A        SJALL013791        O4        0.065        42        64411        T
chr1.149878236.C.T        SV2A        SJALL013791        R1        5.104        3294        64532        T

我想把第1,2,3,列相同的行合并成一行,4-8列一次向后延伸,输出如下:

chr1.11188078.C.A        MTOR        SJALL013791        O4        0.043        29        67510        A
chr1.115256528.T.G        NRAS        SJALL013791        D1        0.073        34        46390        G
chr1.115256530.G.T        NRAS        SJALL013791        O4        0.062        44        70979        T     R1        0.04        36        89427        T
chr1.115258744.C.T        NRAS        SJALL013791        D1        1.005        585        58203        T     O2        0.029        19        66608        T      R1        20.799        22079        106155        T
chr1.14107249.C.T        PRDM2        SJALL013791        R1        0.092        9        9801        T
chr1.149878236.C.T        SV2A        SJALL013791        D1        0.38        168        44198        T     O2        0.079        34        43289        T     O4        0.065        42        64411        T      R1        5.104        3294        64532        T

谢谢大家了!

论坛徽章:
0
发表于 2018-08-28 13:53 |显示全部楼层
  1. <p>[devopr@localhost temp]$ cat file1
  2. chr1.11188078.C.A        MTOR        SJALL013791        O4        0.043        29        67510        A
  3. chr1.115256528.T.G        NRAS        SJALL013791        D1        0.073        34        46390        G
  4. chr1.115256530.G.T        NRAS        SJALL013791        O4        0.062        44        70979        T
  5. chr1.115256530.G.T        NRAS        SJALL013791        R1        0.04        36        89427        T
  6. chr1.115258744.C.T        NRAS        SJALL013791        D1        1.005        585        58203        T
  7. chr1.115258744.C.T        NRAS        SJALL013791        O2        0.029        19        66608        T
  8. chr1.115258744.C.T        NRAS        SJALL013791        R1        20.799        22079        106155        T
  9. chr1.14107249.C.T        PRDM2        SJALL013791        R1        0.092        9        9801        T
  10. chr1.149878236.C.T        SV2A        SJALL013791        D1        0.38        168        44198        T
  11. chr1.149878236.C.T        SV2A        SJALL013791        O2        0.079        34        43289        T
  12. chr1.149878236.C.T        SV2A        SJALL013791        O4        0.065        42        64411        T
  13. chr1.149878236.C.T        SV2A        SJALL013791        R1        5.104        3294        64532        T
  14. [devopr@localhost temp]$ awk '{a=$1FS$2FS$3;b=$4FS$5FS$6FS$7;out[a]=out[a]""FS""b;grp[a]=a}END{l=asort(grp);for(i=1;i<=l;i++)print grp[i],out[grp[i]]}' file1
  15. chr1.11188078.C.A MTOR SJALL013791  O4 0.043 29 67510
  16. chr1.115256528.T.G NRAS SJALL013791  D1 0.073 34 46390
  17. chr1.115256530.G.T NRAS SJALL013791  O4 0.062 44 70979 R1 0.04 36 89427
  18. chr1.115258744.C.T NRAS SJALL013791  D1 1.005 585 58203 O2 0.029 19 66608 R1 20.799 22079 106155
  19. chr1.14107249.C.T PRDM2 SJALL013791  R1 0.092 9 9801
  20. chr1.149878236.C.T SV2A SJALL013791  D1 0.38 168 44198 O2 0.079 34 43289 O4 0.065 42 64411 R1 5.104 3294 64532
  21. [devopr@localhost temp]$

  22. </p>
复制代码

论坛徽章:
0
发表于 2018-08-28 13:54 |显示全部楼层
  1. <div class="blockcode"><blockquote>awk '{a=$1FS$2FS$3;b=$4FS$5FS$6FS$7;out[a]=out[a]""FS""b;grp[a]=a}END{l=asort(grp);for(i=1;i<=l;i++)print grp[i],out[grp[i]]}' file1
复制代码

chr1.11188078.C.A MTOR SJALL013791  O4 0.043 29 67510                                                                                                        
chr1.115256528.T.G NRAS SJALL013791  D1 0.073 34 46390                                                                                                      
chr1.115256530.G.T NRAS SJALL013791  O4 0.062 44 70979 R1 0.04 36 89427                                                                                      
chr1.115258744.C.T NRAS SJALL013791  D1 1.005 585 58203 O2 0.029 19 66608 R1 20.799 22079 106155                                                            
chr1.14107249.C.T PRDM2 SJALL013791  R1 0.092 9 9801                                                                                                         
chr1.149878236.C.T SV2A SJALL013791  D1 0.38 168 44198 O2 0.079 34 43289 O4 0.065 42 64411 R1 5.104 3294 64532   

论坛徽章:
0
发表于 2018-08-28 13:54 |显示全部楼层
  1. <div class="blockcode"><blockquote>awk '{a=$1FS$2FS$3;b=$4FS$5FS$6FS$7;out[a]=out[a]""FS""b;grp[a]=a}END{l=asort(grp);for(i=1;i<=l;i++)print grp[i],out[grp[i]]}' file1
复制代码

chr1.11188078.C.A MTOR SJALL013791  O4 0.043 29 67510                                                                                                        
chr1.115256528.T.G NRAS SJALL013791  D1 0.073 34 46390                                                                                                      
chr1.115256530.G.T NRAS SJALL013791  O4 0.062 44 70979 R1 0.04 36 89427                                                                                      
chr1.115258744.C.T NRAS SJALL013791  D1 1.005 585 58203 O2 0.029 19 66608 R1 20.799 22079 106155                                                            
chr1.14107249.C.T PRDM2 SJALL013791  R1 0.092 9 9801                                                                                                         
chr1.149878236.C.T SV2A SJALL013791  D1 0.38 168 44198 O2 0.079 34 43289 O4 0.065 42 64411 R1 5.104 3294 64532   

论坛徽章:
0
发表于 2018-08-28 13:54 |显示全部楼层
  1. <div class="blockcode"><blockquote>awk '{a=$1FS$2FS$3;b=$4FS$5FS$6FS$7;out[a]=out[a]""FS""b;grp[a]=a}END{l=asort(grp);for(i=1;i<=l;i++)print grp[i],out[grp[i]]}' file1
复制代码

chr1.11188078.C.A MTOR SJALL013791  O4 0.043 29 67510                                                                                                        
chr1.115256528.T.G NRAS SJALL013791  D1 0.073 34 46390                                                                                                      
chr1.115256530.G.T NRAS SJALL013791  O4 0.062 44 70979 R1 0.04 36 89427                                                                                      
chr1.115258744.C.T NRAS SJALL013791  D1 1.005 585 58203 O2 0.029 19 66608 R1 20.799 22079 106155                                                            
chr1.14107249.C.T PRDM2 SJALL013791  R1 0.092 9 9801                                                                                                         
chr1.149878236.C.T SV2A SJALL013791  D1 0.38 168 44198 O2 0.079 34 43289 O4 0.065 42 64411 R1 5.104 3294 64532   

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP