Chinaunix

标题: 请问如何用用awk将一个文本某列的内容替换到另一个文本中相应内容的行? [打印本页]

作者: drdachen    时间: 2015-12-03 11:45
标题: 请问如何用用awk将一个文本某列的内容替换到另一个文本中相应内容的行?
text1内容如下:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67000042        67000051        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        66999639        67000051        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67091530        67091593        0        +        2        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67091530        67091593        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67098753        67098777        0        +        1        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67098753        67098777        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67101627        67101698        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67101627        67101698        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        CDS        67105460        67105516        0        +        0        gene_id "NM_032291"; transcript_id "NM_032291";
chr1        hg19_refGene        exon        67105460        67105516        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
...后面还有N行

text2内容如下:
name         name2
NM_000014        A2M
NM_000015        NAT2
NM_000016        ACADM
NM_000017        ACADS
NM_000018        ACADVL
NM_000019        ACAT1
NM_000020        ACVRL1
NM_000021        PSEN1
NM_000022        ADA
NM_000023        SGCA
NM_000024        ADRB2
NM_000025        ADRB3
NM_000026        ADSL
NM_000027        AGA
NM_000028        AGL
NM_000029        AGT
NM_000030        AGXT
NM_000031        ALAD
NM_000032        ALAS2
NM_000033        ABCD1
NM_000034        ALDOA
...后面还有N行

问题,如何利用awk,搜索text2中name与text1中的gene_id 中"NM_032291"对应的内容,并将text2的name2替换到text1的gene_id“”中,谢谢啦!
作者: haooooaaa    时间: 2015-12-03 11:55
  1. awk 'NR==FNR&&/^NM/{a[$1]=$2;next}{split($10,t,"\"");sub(t[2],a[t[2]])}1' f2 f1
复制代码

作者: songyc_2015    时间: 2015-12-03 12:06
awk 'FNR==NR{a[$1]=$2;next}{FS="\"";$0=$0}a[$2]{$2=a[$2]}1' OFS="\"" test2 test1
作者: drdachen    时间: 2015-12-03 12:20
谢谢各位朋友,不过好像不行,
我的意思可能没有表述清楚,比如text1的某一行是:
text1内容如下:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "NM_032291"; transcript_id "NM_032291";
text2与tex1的gene_id"NM_032291"对应的内容是
NM_032291  ABCBB
那么替换后的内容是:
chr1        hg19_refGene        start_codon        67000042        67000044        0        +        .        gene_id "ABCBB"; transcript_id "NM_032291";

作者: drdachen    时间: 2015-12-03 12:23
text2与text1的内容不是行与行的对应关系,text2的内容是有序的,但text1中对应的NM...是无序的
作者: zxy877298415    时间: 2015-12-03 13:35
  1. awk 'FNR==NR{a[$1]=$2;next}{match($0,/([^\"]+")([^\"]+)(.*)/,b);if(a[b[2]]){print b[1]a[b[2]]b[3]} else {print b[0]}}' file2 file1
复制代码
回复 1# drdachen


   
作者: drdachen    时间: 2015-12-03 14:00
回复 6# zxy877298415


    提示:
awk: line 1: syntax error at or near ,




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2