- 论坛徽章:
- 5
|
本帖最后由 pitonas 于 2014-08-07 08:57 编辑
my $师傅 jason680 's 铭言:- 问题本不难,你又不举例,
- 描述又乱写,让人费疑猜?
复制代码 我发现了一个小伙伴们,他问了这个问题:
寻找定长为8的字符串组合在目标文件中至少出现1次的分析
here:
http://bbs.perlchina.org/thread-392-1-1.html- 大家好,
- 今天的想请问的是:
- 寻找定长为8的字符串组合在目标文件中至少出现1次的程序。希望能给一个分析思路。
- 1,关于字符串组合的解释。
- 该字符串由A,T,G,C这四种字符构成,其最后长度为8.比如ATGCATGC,TTTAATCG等等。根据统计来思考,组合应该有4**8=65536种可能性。
- 2,目标文件
- 目标文件为2列信息,列1和列2分别是由A,T,G,C四种字符构成的不定长的字符串。比如
- TGAGTTCGTTTTTCACCAAACCGTTTTGTGGCCCGCCAGTTTGGTCTGTA AAGTATTGGAACTATCATCAACGATTTAAATAAAGAGATG
- 3,问题的再次介绍:
- 假设从65536种可能性里找到了定长为8的字符串组合:TTTTGTGT和TTTAAATA。目标文件是
- TGAGTTCGTTTTTCACCAAACCGTTTTGTGTGCCCGCCAGTTTGGTCTGTA AAGTATTGGAACTATCATCAACGATTTAAATAAAGAGATG
- 可以看到该组合能在列1和列2分别出现,如下划线标出。那么这种组合是可以的。===========================================================================
- 实际情况是:
- 目标文件很大,假设如下:
- TGAGTTCGTTTTTCACCAAACCGTTTTGTGTGCCCGCCAGTTTGGTCTGTA AAGTATTGGAACTATCATCAACGATTTAAATAAAGAGATG
- TGAGTTCGTTTTTCACCAAACCGTATCTGGTCTGTA AAGTATTGGAACTACTTTTAAATAAAGAGATG
- TGAGTTCGTTTTTCACCAAACCGTTTTGTGTGTAGTTTGGTCTGTA AAGTATTGGAACTATAAAAGAGATG
- TGAGTTCGTTTTTCACCAAACCGAAACAGTTTGGTCTGTA AAGTATTGGAACTATCATCAACGACAGAGATG
- TGAGTTCGTTTTTCACCAAACCGTTTTGTGTTTAGTTTGGTCTGTA AAGTATTGGAACTATCATCAACGATAAAATAAAGAGATG
- 那么此时之前所假设的字符串组合:TTTTGTGT和TTTAAATA就不能满足要求了。下划线为该组合能出现的地方。
- 因为除了第一行的记录,该组合能分别出现在两列。其余4行记录中,该组合都不能在列1和列2同时出现。因此这种组合会被pass。
- 4,我想用程序去编写,现在的问题是如何找出这种可能性组合,后续的验证程序已编写。
- 谢谢
复制代码 我绝对无法理解 ~ {:2_170:} {:2_170:}
小伙伴们,这是什么问题 ? {:2_172:}
|
|