免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5100 | 回复: 6
打印 上一主题 下一主题

[文本处理] 请问如何用用awk将一个文本某列的内容替换到另一个文本中相应内容的行? [复制链接]

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-12-03 11:45 |只看该作者 |倒序浏览
text1内容如下:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67000042        67000051        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        66999639        67000051        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67091530        67091593        0        +        2        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67091530        67091593        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67098753        67098777        0        +        1        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67098753        67098777        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67101627        67101698        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67101627        67101698        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67105460        67105516        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67105460        67105516        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
...后面还有N行

text2内容如下:
name         name2
NM_000014        A2M
NM_000015        NAT2
NM_000016        ACADM
NM_000017        ACADS
NM_000018        ACADVL
NM_000019        ACAT1
NM_000020        ACVRL1
NM_000021        PSEN1
NM_000022        ADA
NM_000023        SGCA
NM_000024        ADRB2
NM_000025        ADRB3
NM_000026        ADSL
NM_000027        AGA
NM_000028        AGL
NM_000029        AGT
NM_000030        AGXT
NM_000031        ALAD
NM_000032        ALAS2
NM_000033        ABCD1
NM_000034        ALDOA
...后面还有N行

问题,如何利用awk,搜索text2中name与text1中的gene_id 中"NM_032291"对应的内容,并将text2的name2替换到text1的gene_id“”中,谢谢啦!

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-12-03 11:55 |只看该作者
  1. awk 'NR==FNR&&/^NM/{a[$1]=$2;next}{split($10,t,"\"");sub(t[2],a[t[2]])}1' f2 f1
复制代码

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
3 [报告]
发表于 2015-12-03 12:06 |只看该作者
awk 'FNR==NR{a[$1]=$2;next}{FS="\"";$0=$0}a[$2]{$2=a[$2]}1' OFS="\"" test2 test1

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
4 [报告]
发表于 2015-12-03 12:20 |只看该作者
谢谢各位朋友,不过好像不行,
我的意思可能没有表述清楚,比如text1的某一行是:
text1内容如下:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
text2与tex1的gene_id"NM_032291"对应的内容是
NM_032291  ABCBB
那么替换后的内容是:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "ABCBB"; transcript_id "NM_032291";

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
5 [报告]
发表于 2015-12-03 12:23 |只看该作者
text2与text1的内容不是行与行的对应关系,text2的内容是有序的,但text1中对应的NM...是无序的

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
6 [报告]
发表于 2015-12-03 13:35 |只看该作者
  1. awk 'FNR==NR{a[$1]=$2;next}{match($0,/([^\"]+")([^\"]+)(.*)/,b);if(a[b[2]]){print b[1]a[b[2]]b[3]} else {print b[0]}}' file2 file1
复制代码
回复 1# drdachen


   

论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-12-21 06:20:00每日论坛发贴之星
日期:2015-12-21 06:20:00程序设计版块每周发帖之星
日期:2016-02-03 16:54:19
7 [报告]
发表于 2015-12-03 14:00 |只看该作者
回复 6# zxy877298415


    提示:
awk: line 1: syntax error at or near ,
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP