免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: hulnglei
打印 上一主题 下一主题

请教 字符串循环右移 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-11-28 20:55 |只看该作者
多谢骑士上心!
其实我没有考虑这个,这是原始表格的格式:
Sequence ID        Repeat Type        Repeat        Start Base        End Base        Length
>TA9635_3708        trinucleotide        GCTGCTGCTGCTGC        486        499        14
>TA9630_3708        tetranucleotide        TTTGTTTGTTTGTT        481        494        14
>TA9618_3708        dinucleotide        GAGAGAGAGAGAGAGAGAGA        31        50        20

因此,它的重复次数是知道的。
所以我只用考虑 AT和TA的冗余,


此外可能是我没有说清楚 DNA双链中A的对面是T,G的对面必定是C  然后两条链又是反向的 所以AT和CG又是冗余的,不过 这是下一步的事情了,暂时不需要考虑!

论坛徽章:
0
12 [报告]
发表于 2009-11-28 21:22 |只看该作者
此外可能是我没有说清楚 DNA双链中A的对面是T,G的对面必定是C  然后两条链又是反向的 所以AT和CG又是冗余的,不过 这是下一步的事情了,暂时不需要考虑!

我猜测这里大多数网友都不是很懂生物学的专业知识,所以你要想获取帮助,也许要直接给出原始数据,然后说明你要得到什么。

Sequence ID        Repeat Type        Repeat        Start Base        End Base        Length
>TA9635_3708        trinucleotide        GCTGCTGCTGCTGC        486        499        14
>TA9630_3708        tetranucleotide        TTTGTTTGTTTGTT        481        494        14
>TA9618_3708        dinucleotide        GAGAGAGAGAGAGAGAGAGA        31        50        20

因此,它的重复次数是知道的。


你想要的是把每种重复归类还是其它什么呢?

论坛徽章:
0
13 [报告]
发表于 2009-11-28 22:45 |只看该作者

回复 #12 x9x9 的帖子

我是想先归类,再计数,不过这都简单,用sort 再uniq就行,就是刚开始怎么弄没想清楚。

论坛徽章:
0
14 [报告]
发表于 2009-11-29 10:53 |只看该作者
原帖由 hulnglei 于 2009-11-28 22:45 发表
我是想先归类,再计数,不过这都简单,用sort 再uniq就行,就是刚开始怎么弄没想清楚。

你所说的开始是哪一步?

论坛徽章:
0
15 [报告]
发表于 2009-11-29 11:13 |只看该作者
原帖由 x9x9 于 2009-11-29 10:53 发表

你所说的开始是哪一步?

就是将原始表格
Sequence ID        Repeat Type        Repeat        Start Base        End Base        Length
>TA9635_3708        trinucleotide        GCTGCTGCTGCTGC        486        499        14
>TA9630_3708        tetranucleotide        TTTGTTTGTTTGTT        481        494        14
>TA9618_3708        dinucleotide        GAGAGAGAGAGAGAGAGAGA        31        50        20

其中Repeat项的重复序列挑出来。后来我加上excel弄出来 不过非常复杂。
先将 重复类型都换成数字 2,3,4,5.
按照其重复的类型,重复几次 就几次substr($3,1,$2) substr($3,2,$2) 用awk将几个重复类型都输出来。
如第一行 有GCT CTG TGC三个重复类型
再在excel表格中用替换 将A换成1 将C换成2 将G换成3 将T换成4 然后选最小值。如第一行的324 243 432 就选243    然后再替换回来。

所以这个问题如果没有其他方法 我勉勉强强,基本算是解决了。谢谢各位大虾!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP