Chinaunix
标题:
请问如何用用awk将一个文本某列的内容替换到另一个文本中相应内容的行?
[打印本页]
作者:
drdachen
时间:
2015-12-03 11:45
标题:
请问如何用用awk将一个文本某列的内容替换到另一个文本中相应内容的行?
text1内容如下:
chr1 hg19_refGene start_codon 67000042 67000044 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene CDS 67000042 67000051 0 + 0 gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene exon 66999639 67000051 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene CDS 67091530 67091593 0 + 2 gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene exon 67091530 67091593 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene CDS 67098753 67098777 0 + 1 gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene exon 67098753 67098777 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene CDS 67101627 67101698 0 + 0 gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene exon 67101627 67101698 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene CDS 67105460 67105516 0 + 0 gene_id "NM_032291"; transcript_id "NM_032291";
chr1 hg19_refGene exon 67105460 67105516 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
...后面还有N行
text2内容如下:
name name2
NM_000014 A2M
NM_000015 NAT2
NM_000016 ACADM
NM_000017 ACADS
NM_000018 ACADVL
NM_000019 ACAT1
NM_000020 ACVRL1
NM_000021 PSEN1
NM_000022 ADA
NM_000023 SGCA
NM_000024 ADRB2
NM_000025 ADRB3
NM_000026 ADSL
NM_000027 AGA
NM_000028 AGL
NM_000029 AGT
NM_000030 AGXT
NM_000031 ALAD
NM_000032 ALAS2
NM_000033 ABCD1
NM_000034 ALDOA
...后面还有N行
问题,如何利用awk,搜索text2中name与text1中的gene_id 中"NM_032291"对应的内容,并将text2的name2替换到text1的gene_id“”中,谢谢啦!
作者:
haooooaaa
时间:
2015-12-03 11:55
awk 'NR==FNR&&/^NM/{a[$1]=$2;next}{split($10,t,"\"");sub(t[2],a[t[2]])}1' f2 f1
复制代码
作者:
songyc_2015
时间:
2015-12-03 12:06
awk 'FNR==NR{a[$1]=$2;next}{FS="\"";$0=$0}a[$2]{$2=a[$2]}1' OFS="\"" test2 test1
作者:
drdachen
时间:
2015-12-03 12:20
谢谢各位朋友,不过好像不行,
我的意思可能没有表述清楚,比如text1的某一行是:
text1内容如下:
chr1 hg19_refGene start_codon 67000042 67000044 0 + . gene_id "NM_032291"; transcript_id "NM_032291";
text2与tex1的gene_id"NM_032291"对应的内容是
NM_032291 ABCBB
那么替换后的内容是:
chr1 hg19_refGene start_codon 67000042 67000044 0 + . gene_id "ABCBB"; transcript_id "NM_032291";
作者:
drdachen
时间:
2015-12-03 12:23
text2与text1的内容不是行与行的对应关系,text2的内容是有序的,但text1中对应的NM...是无序的
作者:
zxy877298415
时间:
2015-12-03 13:35
awk 'FNR==NR{a[$1]=$2;next}{match($0,/([^\"]+")([^\"]+)(.*)/,b);if(a[b[2]]){print b[1]a[b[2]]b[3]} else {print b[0]}}' file2 file1
复制代码
回复
1#
drdachen
作者:
drdachen
时间:
2015-12-03 14:00
回复
6#
zxy877298415
提示:
awk: line 1: syntax error at or near ,
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2