论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-03-13 16:08 |只看该作者 |倒序浏览

大家好：
我有一些字母组成的序列。我想让它们每60个连续字母为一组，而且上一组的最后25个连续字母和下一组的前面25个连续的字母应该是重复的。以此类推。这程序现在没一点思路。是不是应该建一个子程序？
望大家给予帮助。
例子是这样的：
qwertyyuuiiooasdfghjklzxcvbnmqweeaqwdrfgthyjuikmnbvcxzsaaqwertgfdsssyuimnbvcxzaswqerttyyuuuijmnbvcx

我要的结果是这样的：
qwertyyuuiiooasdfghjklzxcvbnmqweeaqwdrfgthyjuikmnbvcxzsaaq #比如说这是60个，那么第二组是：
aqwdrfgthyjuikmnbvcxzsaaqwertgfdsssyuimnbvcxzaswqerttyyuuu #加粗的连续字母就是重复的。这样以此类推。

文库|博客

longbow0

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2010-03-13 16:55 |只看该作者

本帖最后由 longbow0 于 2010-03-13 17:25 编辑

是不是想把一个长的序列，如基因组，分成 60 bp 的片段，相邻 2 段的首尾 25 字符一样?

my $seq = 'qwertyyuuiioo...';
my $offset = 0；
my $len = 60;
my $i = 0;
while ( $i < ( length($seq)/35) ) {
my $subseq = substr($seq, $offset, $len);
(do sth.)
$offset +=35;
$i++;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

leigh111

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2010-03-13 17:08 |只看该作者

对的。您很厉害。我刚接触生物这块。呵呵。这里要用到关于很多perl 的东西。
这是我刚才写的。写到这里真是没思路了。呵呵

use strict;
use warnings;
open(FH,'D:\sequences.fasta') || die "$!";
my $n = 0;
my $length = 60;
my $i = 0;

while (<FH>) {
my $value = substr ($_,$n,60);
last if (length $value < 35);
print "$value\n";
}

您的方法还是好。我仔细研究一下。谢谢您了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

兰花仙子

版主

论坛徽章:: 0

4楼 [报告]

发表于 2010-03-13 17:08 |只看该作者

回复 2# longbow0

的确不错。不过这个length($seq)/35 + 1这个+1似乎是多余的。

use strict;
use Data::Dumper;
my $seq = "qwertyyuuiiooasdfghjklzxcvbnmqweeaqwdrfgthyjuikmnbvcxzsaaqwertgfdsssyuimnbvcxzaswqerttyyuuuijmnbvcx";
my $offset = 0;
my $len = 60;
my $i = 0;
my @result;
while ( $i < ( length($seq)/35) ) {
my $subseq = substr($seq, $offset, $len);
push @result,$subseq;
$offset +=35;
$i++;
}
print Dumper \@result;

复制代码

output:

$VAR1 = [
      'qwertyyuuiiooasdfghjklzxcvbnmqweeaqwdrfgthyjuikmnbvcxzsaaqwe',
      'wdrfgthyjuikmnbvcxzsaaqwertgfdsssyuimnbvcxzaswqerttyyuuuijmn',
      'imnbvcxzaswqerttyyuuuijmnbvcx'
      ];

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

longbow0

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2010-03-13 17:21 |只看该作者

回复 longbow0

的确不错。不过这个length($seq)/35 + 1这个+1似乎是多余的。

output:
...
兰花仙子发表于 2010-03-13 17:08

谢谢仙子提醒，确实是考虑不周。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

leigh111

丰衣足食

论坛徽章:: 0

6楼 [报告]

发表于 2010-03-14 03:54 |只看该作者

本帖最后由 leigh111 于 2010-03-14 03:55 编辑

还得求大家一个忙，就是读入一个文件的话。
比如说文件里是：
fgheiojwdcasdncjnksacnsadahhawkdnjkaskjdhukwhuiadckjsncmnawkaw
twgdhjdvsbcmabwhdjbcmnsb hfgvjagwgdrfhjfmasvdghafywgdvsvcdhvhj
wadjwbjdbahvwdyawvbhjdvhwjagdyagdhjvqawyfdyqvvghsfdyasfyudgw
awdawdcadawdcdffehfuiehwhbefehfuewj

因为while是一行一行读取的。当open这个文件时，我想让它们组成一个字符串，就是第一行和第二行没有换行符的。依此类推。
像这样：
my $seq = "fgheiojwdcasdncjnksacnsadahhawkdnjkaskjdhukwhuiadckjsncmnawkawfgheiojwdcasdncjnksacnsadahhawkdnjkaskjdhukwhuiadckjsncmnawkawwadjwbjdbahvwdyawvbhjdvhwjagdyagdhjvqawyfdyqvvghsfdyasfyudgwawdawdcadawdcdffehfuiehwhbefehfuewj";
就是去掉每一行最后的换行符。该怎么实现呢？
我用 chop函数不行。用join 函数也没实现成功。