忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 3569 | 回复: 8

求一个切割序列的脚本 [复制链接]

论坛徽章:
0
发表于 2018-01-17 21:58 |显示全部楼层
序列:几万条,fasta格式,如下:
>gene=XLOC_000001
CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTCCTTTGTCTCCTTCGGTGGTGTCCATTGGTGCGGGTGCATGGATTCTGTGCGCGGGTGCATGGTGGCGGTCAAAACAGGTAGTATGGTGGCGGTCTCTGGATATGCGGGCTGCTCTTCCTGCGGTGATGGATCGTCGGCGGGGAATATAAGGCTCAAGAGGGGTTGATGTTTGCGGCTGGCTTTAATTGCATGTTTGGCGGCGGTTTTTTGTGGTAGGCTGTCTTGTATTGGCTTCGGTTCTTCTAATACTATTTTCGGTAAATCATTTCTAAAGGTGGTGTATGATGTTGAAAtatcttgattttctttgtttgtttcaTTGGAGCTTGTCGGTGTtatatcgggggtatcatatagtcctggtttattagttgtagttttctgtatatctggtggcgggtcgttgggtgctgggttccgggttttttgttgattcaatcc
>gene=XLOC_000002
TAGGGATTTGCTTGTGATCATGTTTCTATAAAGTCGtcattttatcaattcgaaGATCAGCCTTCAAAAATTTAGGTCAACTTATACATTTCAACTCACGTTGCTACACGTTTCAACTTAGCAAAAGGACAGAGggaattagtattattattctctagagcCCTGGAAATATCCCTGTTATTGTTCTTGGTACGGTACCTTATACAAAAGGGACtccataatacaaaaacaaatcagtCCTTGCCGGACAAagctagagaaagaagaagaagaagaagacgacgacaggaggagaagaagaacaagcgagaagaagaagataatagaaaaagg

求一个脚本可以把每条序列按顺序从头到尾切割成一些2000bp的短序列。
打赏鼓励一下!

论坛徽章:
0
发表于 2018-01-18 13:32 |显示全部楼层
比如说一条长序列 CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTC
我希望切割成
CTCCG
TCCTG
GATGC
CGTCC
TCCCT
GGTGT
CAGCC
.......
固定长度的短序列,例子中长度为5,我希望切割成长度为2000以内如1900的长度。
各位大神有何妙招

论坛徽章:
0
发表于 2018-01-19 12:34 |显示全部楼层
perl cut.pl  your_data_file
  1. #!/usr/bin/perl
  2. use warnings;
  3. use 5.010;
  4. my $Bp = 5;    # 切割成短序列

  5. while (<>) {
  6.     print; $_ = <>; chomp;
  7.     my $pos = 0;
  8.     while ( $pos < length ) {
  9.         say substr $_, $pos, $Bp;
  10.         $pos += $Bp;
  11.     }
  12. }

复制代码

论坛徽章:
0
发表于 2018-01-19 21:39 |显示全部楼层
回复 3# Okelani

多谢大神!不好意思我之前没说清楚,能不能切割序列并且给它加上编号呢,比如:
原文件:
>gene=XLOC_000001
CTCCGTCCTGGATGCCGTCCTCCCTGGTGTCAGCCTCTTGGTCAAAAATTTTGGGGTC
结果文件:
>gene=XLOC_000001.1
CTCCG
>gene=XLOC_000001.2
TCCTG
>gene=XLOC_000001.3
GATGC
>gene=XLOC_000001.4
CGTCC
.......
长序列切割成固定长度的短序列,并且编号(编号形式任意,包含原来的编号就好,比如>gene=XLOC_000001_1也行)。

多谢大神!

论坛徽章:
0
发表于 2018-01-20 13:02 |显示全部楼层
回复 4# skyxbxb

perl cut.pl your_data
perl cut.pl your_data 100

  1. #!/usr/bin/perl
  2. use warnings;
  3. use 5.010;
  4. my $Bp = $ARGV[1] ? pop : 80;    # 切割成短序列, default = 80

  5. while (<>) {
  6.     # print;    # 原文件  >gene=XLOC_000001
  7.     chomp;
  8.     $_ .= '.';
  9.     chomp( my $seq = <> );
  10.     my ( $pos, $i ) = ( 0, 1 ); # $i = 编号
  11.     while ( $pos < length($seq) ) {
  12.         say $_, $i++;
  13.         say substr $seq, $pos, $Bp;
  14.         $pos += $Bp;
  15.     }
  16. }
复制代码

论坛徽章:
0
发表于 2018-01-20 19:49 |显示全部楼层
回复 5# Okelani

非常感谢大神!!!

论坛徽章:
0
发表于 2018-01-25 17:03 |显示全部楼层
回复 3# Okelani
好心的大神能不能帮我一下,帖子如下:
文件中定位查找特殊字段并输出到表格中
http://bbs.chinaunix.net/forum.p ... mp;fromuid=31517907
(出处: http://bbs.chinaunix.net/)

论坛徽章:
0
发表于 2018-02-02 17:52 |显示全部楼层
回复 7# 凋谢1991

1. input data
2. procedure
3. output data

论坛徽章:
7
巳蛇
日期:2013-11-28 09:22:59天秤座
日期:2014-10-25 15:40:452015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:53:172015亚冠之德黑兰石油
日期:2015-07-15 08:46:452015亚冠之平阳省
日期:2015-11-08 16:27:53白银圣斗士
日期:2015-11-14 09:58:12
发表于 2018-03-19 11:34 |显示全部楼层
  1. #!/usr/bin/perl
  2. use strict;
  3. use Bio::SeqIO;

  4. my ($file,$length)=@ARGV[0,1];  # perl Cut_fasta.pl  fasta_file  50

  5. my $SeqIO=Bio::SeqIO->new(-file=>"$file",-format=>'fasta');
  6. while (my $Seq=$SeqIO->next_seq){
  7.         my $id=$Seq->id;
  8.         my $len=$Seq->length;
  9.         for (my $i=1;$i<=($len/$length+1);$i++){
  10.                 my $start=$length*($i-1)+1;
  11.                 my $end=($len<$length*$i)?$len:$length*$i;
  12.                 my $seq=$Seq->subseq($start,$end);
  13.                 print ">$id.$i\n$seq\n"
  14.         }
  15. }
  16. $SeqIO->close();
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP