- 论坛徽章:
- 0
|
本帖最后由 蓝色未央 于 2017-03-01 14:48 编辑
遇到些问题,想请教大神一下:
1.txt长这样:(两行,一行为抬头,一行为序列)
>TRINITY_DN49716_c0_g1_i1 len=432 path=[410:0-431] [-1, 410, -2]
TTTTGACTTTGAAAAAGGTCAATTCCTGGCGAAGACAAGGTCGAAATGTTGAATTGGAAA
ATGGAATTGAAAAGAAAAATTTGATCGAAGCCTTTATTTTAAATG
>TRINITY_DN49716_c0_g1_i2 len=420 path=[410:0-431] [-1, 410, -2]
TTTTGACTTTGAAAAAGGTCAATTCCTGGCGAAGACAAGGTCGAAATGTTGAATTGGAAA
ATGGAATTGAAAAGAAAAATTTGATCGAAGCCTTT
>TRINITY_DN49772_c0_g1_i1 len=497 path=[475:0-496] [-1, 475, -2]
GAAAAAGGTCAATTCCTGGCGAAGACAAGGTCGAA
>TRINITY_DN49702_c0_g1_i1 len=701 path=[679:0-414 1071:415-700] [-1, 679, 1071, -2]
AGCAGCTTTTCATCCATCTAATCAAATGGTATCAGTTGAATCAAATGAGGGTAAAGTTAT
GTCATGTAGTTTACTTTATCGCGGTCCGATTACTGCTCAAGATGTTTTTGATACAATTCA
TAATGTGAAAAGAGGTAAAGATATGGAATGGGTTGAATGGTGTCCAACTGGTTTTAAAGT
...
想请教一下,碰到高亮的抬头相似的序列(i1,i2,i3···,重复次数未定),判断一下len的长度,取长的这一段(其中分隔符为\n),感觉前面可以先用sed替换一下
结果文件:
>TRINITY_DN49716_c0_g1_i1 len=432 path=[410:0-431] [-1, 410, -2]
TTTTGACTTTGAAAAAGGTCAATTCCTGGCGAAGACAAGGTCGAAATGTTGAATTGGAAA
ATGGAATTGAAAAGAAAAATTTGATCGAAGCCTTTATTTTAAATG
>TRINITY_DN49772_c0_g1_i1 len=497 path=[475:0-496] [-1, 475, -2]
GAAAAAGGTCAATTCCTGGCGAAGACAAGGTCGAA
>TRINITY_DN49702_c0_g1_i1 len=701 path=[679:0-414 1071:415-700] [-1, 679, 1071, -2]
AGCAGCTTTTCATCCATCTAATCAAATGGTATCAGTTGAATCAAATGAGGGTAAAGTTAT
GTCATGTAGTTTACTTTATCGCGGTCCGATTACTGCTCAAGATGTTTTTGATACAATTCA
TAATGTGAAAAGAGGTAAAGATATGGAATGGGTTGAATGGTGTCCAACTGGTTTTAAAGT
...
O(∩_∩)O谢谢
|
|