论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2018-01-17 21:58 |只看该作者 |倒序浏览

序列：几万条，fasta格式，如下：
>gene=XLOC_000001
CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTCCTTTGTCTCCTTCGGTGGTGTCCATTGGTGCGGGTGCATGGATTCTGTGCGCGGGTGCATGGTGGCGGTCAAAACAGGTAGTATGGTGGCGGTCTCTGGATATGCGGGCTGCTCTTCCTGCGGTGATGGATCGTCGGCGGGGAATATAAGGCTCAAGAGGGGTTGATGTTTGCGGCTGGCTTTAATTGCATGTTTGGCGGCGGTTTTTTGTGGTAGGCTGTCTTGTATTGGCTTCGGTTCTTCTAATACTATTTTCGGTAAATCATTTCTAAAGGTGGTGTATGATGTTGAAAtatcttgattttctttgtttgtttcaTTGGAGCTTGTCGGTGTtatatcgggggtatcatatagtcctggtttattagttgtagttttctgtatatctggtggcgggtcgttgggtgctgggttccgggttttttgttgattcaatcc
>gene=XLOC_000002
TAGGGATTTGCTTGTGATCATGTTTCTATAAAGTCGtcattttatcaattcgaaGATCAGCCTTCAAAAATTTAGGTCAACTTATACATTTCAACTCACGTTGCTACACGTTTCAACTTAGCAAAAGGACAGAGggaattagtattattattctctagagcCCTGGAAATATCCCTGTTATTGTTCTTGGTACGGTACCTTATACAAAAGGGACtccataatacaaaaacaaatcagtCCTTGCCGGACAAagctagagaaagaagaagaagaagaagacgacgacaggaggagaagaagaacaagcgagaagaagaagataatagaaaaagg

求一个脚本可以把每条序列按顺序从头到尾切割成一些2000bp的短序列。

文库|博客

skyxbxb

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2018-01-18 13:32 |只看该作者

比如说一条长序列 CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTC
我希望切割成
CTCCG
TCCTG
GATGC
CGTCC
TCCCT
GGTGT
CAGCC
.......
固定长度的短序列，例子中长度为5，我希望切割成长度为2000以内如1900的长度。
各位大神有何妙招

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Okelani

稍有积蓄

论坛徽章:: 0

3楼 [报告]

发表于 2018-01-19 12:34 |只看该作者

perl cut.pl your_data_file

#!/usr/bin/perl
use warnings;
use 5.010;
my $Bp = 5; # 切割成短序列
while (<>) {
print; $_ = <>; chomp;
my $pos = 0;
while ( $pos < length ) {
say substr $_, $pos, $Bp;
$pos += $Bp;
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

skyxbxb

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2018-01-19 21:39 |只看该作者

回复 3# Okelani

多谢大神！不好意思我之前没说清楚，能不能切割序列并且给它加上编号呢，比如：
原文件：
>gene=XLOC_000001
CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTC
结果文件：
>gene=XLOC_000001.1
CTCCG
>gene=XLOC_000001.2
TCCTG
>gene=XLOC_000001.3
GATGC
>gene=XLOC_000001.4
CGTCC
.......
长序列切割成固定长度的短序列，并且编号（编号形式任意，包含原来的编号就好，比如>gene=XLOC_000001_1也行）。

多谢大神！