- 论坛徽章:
- 0
|
遇上点麻烦的文本处理问题,想请教一下各位大神:
1.txt:(高两部分为header,长得不一样,但是都是以">"开头的,header为一行,下面的每个为一行)
>m161112_061847_42213_c101125762550000001823268105221784_s1_p0/64139/30_1259_CCS strand=+;fiveseen=1;polyAseen=1;threeseen=1;fiveend=30;polyAend=1259;threeend=1290;primer=1;chimera=0
ATCTAATATTGGTTGGATATTTTCCAGAGATAGTTTAATAATTGGATCAAAAATTGGAGAAGGCGCCTTT
GGTATTGTGTACTCAGCTTTGGTCAAATCTTTCTCCGAAAATTCAGCTAGTGTAGAAGTAGCAATTAAAA
CTTTACACACGTCATTTGGAGATCAAGACGTCATAAACCTAATTCAGGAA
>m161112_061847_42213_c101125762550000001823268105221784_s1_p0/76726/1088_68_CCS strand=-;fiveseen=1;polyAseen=1;threeseen=1;fiveend=31;polyAend=1051;threeend=1090;primer=1;chimera=0
AGAAGGAATGGAATATTTGTCATCACGAAAGATAATTCACAGAGATTTGGCAGCGAGAAATGTATTAGTT
GATCAATATGTAGAAATGAAAATAGCAGATTTCGGTCTAACAAGAATTGTTGAAAATTATTATCGTAAAA
CTACTGACGGACGTCTGCCTATTAAATGGATGGCTCCTGAATGCCTACT
···
header大概有超过80,000个
现在因为软件需要,想要把表头做成这种格式:
>dj_1
>dj_2
···
>dj_3
也就是说1.txt成这样:
>dj_1
ATCTAATATTGGTTGGATATTTTCCAGAGATAGTTTAATAATTGGATCAAAAATTGGAGAAGGCGCCTTT
GGTATTGTGTACTCAGCTTTGGTCAAATCTTTCTCCGAAAATTCAGCTAGTGTAGAAGTAGCAATTAAAA
CTTTACACACGTCATTTGGAGATCAAGACGTCATAAACCTAATTCAGGAA
>dj_2
AGAAGGAATGGAATATTTGTCATCACGAAAGATAATTCACAGAGATTTGGCAGCGAGAAATGTATTAGTT
GATCAATATGTAGAAATGAAAATAGCAGATTTCGGTCTAACAAGAATTGTTGAAAATTATTATCGTAAAA
CTACTGACGGACGTCTGCCTATTAAATGGATGGCTCCTGAATGCCTACT
期待大神相助
|
|