- 论坛徽章:
- 0
|
原帖由 x9x9 于 2009-11-29 10:53 发表 ![]()
你所说的开始是哪一步?
就是将原始表格
Sequence ID Repeat Type Repeat Start Base End Base Length
>TA9635_3708 trinucleotide GCTGCTGCTGCTGC 486 499 14
>TA9630_3708 tetranucleotide TTTGTTTGTTTGTT 481 494 14
>TA9618_3708 dinucleotide GAGAGAGAGAGAGAGAGAGA 31 50 20
其中Repeat项的重复序列挑出来。后来我加上excel弄出来 不过非常复杂。
先将 重复类型都换成数字 2,3,4,5.
按照其重复的类型,重复几次 就几次substr($3,1,$2) substr($3,2,$2) 用awk将几个重复类型都输出来。
如第一行 有GCT CTG TGC三个重复类型
再在excel表格中用替换 将A换成1 将C换成2 将G换成3 将T换成4 然后选最小值。如第一行的324 243 432 就选243 然后再替换回来。
所以这个问题如果没有其他方法 我勉勉强强,基本算是解决了。谢谢各位大虾! |
|