1 23 / 3 页

论坛徽章:: 0

21楼 [报告]

发表于 2016-08-01 03:12 |只看该作者

回复 19# sunzhiguolu
继续碰到问题，整个N*9列的数据太过复杂。我用您写的代码，分析数据后发现大概有400多个例子（大概8000多行）仍然属于复杂情况，于是我写了很粗糙的代码剥离这部分数据。如下，见笑：
open IN,"< Ref.txt";
@Ref = <IN>;
close IN;

open IN,"< data.txt";
@Data = <IN>;
close IN;

open (my $fhF1, '>', './Seperative.txt');
foreach $Data(@Data){
chomp $Data;
@temp2 = split(/\t/,$Data);
foreach $Ref(@Ref){
chomp $Ref;
@temp1 = split(/\t/,$Ref);
if($temp2[0] eq $temp1[0] && $temp2[-1] eq $temp1[-1]){
print $fhF1 "@temp2\n";
next;
}
}
}

close ($fhF1);
就是，我对data.txt，如下：
chr1 hg19_refGene exon 154474695 154475505 0 + . gene_id "NM_001098475"; transcript_id "NM_001098475";
chr1 hg19_refGene start_codon 154479380 154479381 0 + . gene_id "NM_001098475"; transcript_id "NM_001098475";
chr1 hg19_refGene CDS 154479380 154479381 0 + 0 gene_id "NM_001098475"; transcript_id "NM_001098475";
chr1 hg19_refGene exon 154479353 154479381 0 + . gene_id "NM_001098475"; transcript_id "NM_001098475";
chr1 hg19_refGene stop_codon 154522914 154522916 0 - . gene_id "NM_017582"; transcript_id "NM_017582";
chr1 hg19_refGene CDS 154522917 154522945 0 - 2 gene_id "NM_017582"; transcript_id "NM_017582";
chr1 hg19_refGene exon 154521051 154522945 0 - . gene_id "NM_017582"; transcript_id "NM_017582";
chr1 hg19_refGene start_codon 161087967 161087968 0 + . gene_id "NM_001185092"; transcript_id "NM_001185092";
chr1 hg19_refGene CDS 161087967 161087968 0 + 0 gene_id "NM_001185092"; transcript_id "NM_001185092";
chr1 hg19_refGene exon 161087862 161087968 0 + . gene_id "NM_001185092"; transcript_id "NM_001185092";
设计了一个，ref.txt，如下：
chr1 hg19_refGene exon 154474695 154475505 0 + . gene_id "NM_001098475"; transcript_id "NM_001098475";
chr1 hg19_refGene exon 161087862 161087968 0 + . gene_id "NM_001185092"; transcript_id "NM_001185092";
通过，这条“$temp2[0] eq $temp1[0] && $temp2[-1] eq $temp1[-1]”表示只有第1列，第9列都相同的数据，分割出来（Seperative.txt）。原本我的目的是直接生成两个txt文件（都相同的生产一个文件；剩下的生产另一个文件），可是只有这个都形同的结果输出可以，是正确的7行；但是else的结果不对，不是3行数据（没贴在这儿）。
此外，即便正确的，输出的数组原来的“\t”格式不知道为什么只被识别成了空格（9列数据变成合在一起的1列数据输出了），修改了好多遍，解决不了。其它辅助方法，通过UE将空格转“\t”，由于[-1]gene**后面好几个空格，结果第9列被拆成了好几列。
1.我想学习下，如果是您会如何设计这样的代码？
2.显然，我的代码拆分两个txt就会出错；而且格式被修改了。因此，只能再次求助了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunzhiguolu

巨富豪门

论坛徽章:: 307

22楼 [报告]

发表于 2016-08-01 09:01 |只看该作者

本帖最后由 sunzhiguolu 于 2016-08-01 09:05 编辑

你再测试下,

open IN,"< Ref.txt";
@Ref = <IN>;
close IN;

open IN,"< data.txt";
@Data = <IN>;
close IN;

open (my $fhF1, '>', './Seperative.txt');
foreach $Data(@Data){
chomp $Data;
@temp2 = split(' ',$Data);
$match = 0;
foreach $Ref(@Ref){
      chomp $Ref;
      @temp1 = split(' ',$Ref);
      $match = 1 if($temp2[0] eq $temp1[0] && $temp2[-1] eq $temp1[-1]);
}
if ($match == 1){
      print $fhF1 join ("\t", @temp2), "\n";
      next;
}
print join ("\t", @temp2), "\n";
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jacqueslm2001

白手起家

论坛徽章:: 0

23楼 [报告]

发表于 2016-08-01 12:34 |只看该作者

稍微修了一点点，可以用了；开始我也用了一个check=0，后来想想好像这个判断可有可无，最后就删掉了，结果。。。哎！还是凭着20年前basic的底子，真的干不动
谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 菜鸟求助

菜鸟求助 [复制链接]

浏览过的版块