免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1574 | 回复: 2
打印 上一主题 下一主题

[文本处理] 小白求教awk [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-04-29 23:01 |只看该作者 |倒序浏览
本人不学计算机,但是被迫天天跟大数据打交道。今天碰到一个问题,有个示例文本,它的第11列内容是transcript_id "289427.1";现在需要将其替换成transcript_id "heart.289427.1"
百度了下,说用awk。网上提供的代码仅能直接往开始地方添加字符,并不能达到我想要的往引号里面的内容添加字符串,因此,我按其提供的代码awk '{$11="heart."$11; print}' 生成是heart.transcript_id "289427.1"
因为基本不会计算机,求教高手,怎么处理它,让其生成的是transcript_id "heart.289427.1",正则如何写?谢谢
原始文档前3行如下:
chr3        Cufflinks        transcript        71002043        71114061        1000        -        .        gene_id "ENSG00000114861"; transcript_id "289427.1"; FPKM "19.8831"; frac "1.000000";
chr3        Cufflinks        exon        71002043        71008542        1000        -        .        gene_id "ENSG00000114861"; transcript_id "289427.1"; exon_number "1"; FPKM "19.8831"; frac "1.000000";
chr3        Cufflinks        exon        71015041        71015207        1000        -        .        gene_id "ENSG00000114861"; transcript_id "289427.1"; exon_number "2"; FPKM "19.8831"; frac "1.000000";

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2017-04-30 09:19 |只看该作者
回复 1# jacqueslm2001


$ perl -lape 's/transcript_id "\K/heart./' FILE
chr3        Cufflinks        transcript        71002043        71114061        1000        -        .        gene_id "ENSG00000114861"; transcript_id "heart.289427.1"; FPKM "19.8831"; frac "1.000000";
chr3        Cufflinks        exon        71002043        71008542        1000        -        .        gene_id "ENSG00000114861"; transcript_id "heart.289427.1"; exon_number "1"; FPKM "19.8831"; frac "1.000000";
chr3        Cufflinks        exon        71015041        71015207        1000        -        .        gene_id "ENSG00000114861"; transcript_id "heart.289427.1"; exon_number "2"; FPKM "19.8831"; frac "1.000000";

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-12-17 06:20:00
3 [报告]
发表于 2017-05-02 14:38 |只看该作者
awk '{sub("transcript_id \"","transcript_id \"heart.",$0);print $0}' u_file
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP