[文本处理] perl [复制链接]

论坛徽章:: 0

11楼 [报告]

发表于 2015-08-08 10:40 |只看该作者

这是我写的，结果不对，我并没有办法将我说的思路用perl写出来，麻烦您看看
#!/usr/bin/perl -w
use warnings;
use strict;
use Bio::SeqIO;

my $data=$ARGV[0];

open (W,"<$data") || die $!;
my %gene;
while(<W>){
chomp;
$gene{$_}++;
}
close W;

open (M,"> $data.longest") || die $!;

my $all=Bio::SeqIO->new(-file=>"$data",-format=>'fasta');
while(my $seq=$all->next_seq){
my $id=$seq->id;
my $seq=$seq->seq;
   $gene{$seq}=length($seq);
push(my @length,$gene{$seq});
my @ids=split(/\|/,$id);
my @newid=split(/\./,$id);
foreach $a (@newid){
      if ($a){
         my @length_1 = sort{$a<=>$b}@length;
         print ">$id\n";
         print "$seq\n";
      }
      else{
         print ">$id\t";
         print "$seq\n";

      }
}
}
close M;回复 9# MMMIX

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

super_two

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2015-08-08 11:12 |只看该作者

这是我写的，结果不对，我并没有办法将我说的思路用perl写出来，麻烦您看看
#!/usr/bin/perl -w
use warnings;
use strict;
use Bio::SeqIO;

my $data=$ARGV[0];

open (W,"<$data") || die $!;
my %gene;
while(<W>){
chomp;
$gene{$_}++;
}
close W;

open (M,"> $data.longest") || die $!;

my $all=Bio::SeqIO->new(-file=>"$data",-format=>'fasta');
while(my $seq=$all->next_seq){
my $id=$seq->id;
my $seq=$seq->seq;
   $gene{$seq}=length($seq);
push(my @length,$gene{$seq});
my @ids=split(/\|/,$id);
my @newid=split(/\./,$id);
foreach $a (@newid){
      if ($a){
         my @length_1 = sort{$a<=>$b}@length;
         print ">$id\n";
         print "$seq\n";
      }
      else{
         print ">$id\t";
         print "$seq\n";

      }
}
}
close M

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

j_cle

稍有积蓄

论坛徽章:: 12

13楼 [报告]

发表于 2015-08-08 11:53 |只看该作者

回复 10# 聆雨淋夜

awk -F '[. ]+' '$1!=a{ml=length($3);a=$1;b[$1]=$3}$1==a{if(length($3)>ml){ml=length($3);b[$1]=$3}}END{for(i in b)print i" "b[i]}' file

复制代码

请教下 $1!=a{}$1==a{} 这个结构是什么意思？以前还没有见过这种写法，
我自己猜想是
如果在匹配的过程中 $1如果相同的话执行==后面的表达式{}，如果$1不相同的话执行！=后面的表达式
是这样理解的么？
这种用法是叫什么呢？哪里能找到相关的资料，想具体学习下，谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

14楼 [报告]

发表于 2015-08-08 14:31 |只看该作者

回复 11# super_two

其实, 你只需要逐个读取序列, 对于每个 id, 只保留最长的那个序列即可.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

聆雨淋夜

家境小康

论坛徽章:: 22

15楼 [报告]

发表于 2015-08-08 15:23 |只看该作者

回复 13# j_cle

a是上一行的$1，$1!=a 表示当前行的$1和上一行的$1不一样了，这样就进行ml和b[$1]的初始化

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

聆雨淋夜

家境小康

论坛徽章:: 22

16楼 [报告]

发表于 2015-08-08 15:25 |只看该作者

回复 13# j_cle
其实不需要这么区分的，见CU的大神写过类似的，只是我想不起来怎么写的了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

super_two

白手起家

论坛徽章:: 0

17楼 [报告]

发表于 2015-08-08 17:49 |只看该作者

您可以写一个脚本让我看一下整个语法过程吗？见过的脚本太少，无法把握整体的语法结构

回复 15# 聆雨淋夜

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

super_two

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2015-08-08 18:54 |只看该作者

您可以写一个脚本让我看一下整个语法过程吗？见过的脚本太少，无法把握整体的语法结构回复 14# MMMIX

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

MMMIX

广告杀手

论坛徽章:: 95

19楼 [报告]

发表于 2015-08-08 19:19 |只看该作者

本帖最后由 MMMIX 于 2015-08-08 21:20 编辑

回复 18# super_two

真心建议你找些 Perl 编程的书好好看看, 不过估计你是听不进去的.

无论如何, 下述脚本演示了解决你的问题的一种方法. 另外,如果在你的输入文件中,id相同的序列顺序出现,那么也可以不用hash.