免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
论坛 程序设计 Shell shell
最近访问板块 发新帖
查看: 2162 | 回复: 5
打印 上一主题 下一主题

[文本处理] shell [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-02-19 18:48 |只看该作者 |倒序浏览
大家好, 程序问题下望大家帮忙:现有一个文件file.txt,其文件格式如下:第五列 和第六列分别用;隔开的信息, 而且两列每一个;隔开得信息是对应的。 也就是第五列的第一个数字对应第六列的第一个数字,以此类推。
ENSG00000158014        chr1        -        8        26038022;26039777;26041700;26042549;26043398;26044298;26044997;26045847        26039305;26039911;26041805;26042708;26043551;26044444;26045217;26046133
ENSG00000173673        chr1        +        4        6244192;6244351;6244548;6245110        6244241;6244446;6244629;6245578
ENSG00000173690        chr1        +        1        6244192        6244548

目的是:将第五列和第六列对应的内容连到一起(之后再用;隔开),其他内容不变,输出格式如下:
ENSG00000158014        chr1        -        8        26038022-26039305;26039777-26039911;26041700-26041805;26042549-26042708;26043398-26043551;26044298-26044444;26044997-26045217;26045847-26046133
ENSG00000173673        chr1        +        4        6244192-6244241;6244351-6244446;6244548-6244629;6245110-6245578
ENSG00000173690        chr1        +        1        6244192-6244548

问题有点绕,希望大家帮忙解决,谢谢,

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
2 [报告]
发表于 2016-02-19 22:14 |只看该作者
  1. awk '{for(i=1;i<=NF;i++) {if(i<NF-1) {printf $i"\t"} else {t=split($i,a,";");for(j=1;j<=t;j++) b[j]=b[j]?b[j]"-"a[j]:a[j]}} for(i=1;i<=t;i++) if(i==1) printf b[i];else printf ";"b[i];delete b;print "" }' file
复制代码
回复 1# biobaby


   

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
3 [报告]
发表于 2016-02-19 22:20 |只看该作者
  1. awk '{OFS="\t";for(i=1;i<=split($5";"$6,m,";")/2;i++){n=m[i]"-"m[i+l/2];s=s?s";"n:n};$5=s;s=$6=""}1' file
复制代码

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
4 [报告]
发表于 2016-02-19 23:00 |只看该作者
  1. awk '
  2. {
  3.     for(i=1;i<=NF;i++){
  4.         if(i<5){
  5.             printf $i OFS
  6.         }
  7.         else
  8.         {
  9.             len1=split($5,a1,";");
  10.             len2=split($6,a2,";");

  11.             for(i=1;i<=len1;i++){
  12.                 if(i==len1){
  13.                     printf a1[i]"-"a2[i]
  14.                     break  
  15.                 }
  16.                 printf a1[i]"-"a2[i]";"
  17.             }
  18.             break
  19.         }
  20.     }
  21.     printf "\n"
  22. }
  23. ' file
复制代码

论坛徽章:
0
5 [报告]
发表于 2016-02-20 10:55 |只看该作者
awk '{l=split($5";"$6,a,";");for(i=1;i<=l/2;i++)b=b?b";"a[i]"-"a[l/2+i]:a[i]"-"a[l/2+i];$5=b;$6=b=""}1' file

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
6 [报告]
发表于 2016-02-20 12:06 |只看该作者
  1. awk '{s=split($5,a,";");split($6,b,";");for(i=1;i<=s;i++){m=m?m";"a[i]"-"b[i]:a[i]"-"b[i]};$5=m;$6="";print;m=""}' file.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP