123 4 / 4 页下一页

跪求高手帮助解决perl问题 [复制链接]

弦断有谁听1053476508

白手起家

论坛徽章:: 0

11楼 [报告]

发表于 2014-12-13 20:14 |只看该作者

回复 10# huang6894

那就是真实文件，只是一部分。源文件我上传了，你看看。在命令行里输入Perl XX.pl 路径\Orthologs-msu.txt Allseq.fa 这样测试，对不对？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

12楼 [报告]

发表于 2014-12-14 10:46 |只看该作者

回复 11# 弦断有谁听1053476508

不好意思，帮不到你，我这里测试没有问题~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

b114213903

丰衣足食

论坛徽章:: 7

13楼 [报告]

发表于 2014-12-15 09:35 |只看该作者

请提供完整的fa文件

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

弦断有谁听1053476508

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2014-12-15 14:16 |只看该作者

Allseq.fa文件有200g，太大没法上传，只能发测试文件。大神，我有重新上传了测试文件，编辑了帖子，麻烦您给看看，或许是过程步骤我没有向您描述清楚。回复 12# huang6894

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

弦断有谁听1053476508

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2014-12-15 14:17 |只看该作者

Allseq.fa文件有200g，太大没法上传，只能发测试文件，大神，我新上传了测试文件，您再看看。回复 13# b114213903

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

弦断有谁听1053476508

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2014-12-15 14:27 |只看该作者

还请大家不吝赐教!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

b114213903

丰衣足食

论坛徽章:: 7

17楼 [报告]

发表于 2014-12-15 22:07 |只看该作者

#!/usr/bin/perl
use strict;
my $file=shift @ARGV || "orthol-msu.txt";
open (IN,"<$file") or die "Open $file failed!\n";
my %hash=();
while (my $line=<IN>){
my @line=split /\t/,$line;
my $value=$line[4];
$line[4]=~s/\s/\n/g;
print "$line[0]\n";
##第一步##
open (OUT,">$line[0].txt");
foreach my $item(@line){
print OUT "$item\n";
}
close OUT;
##第二步##
$hash{$line[0]}=$value;
}
close IN;
foreach my $id(keys %hash){
print "ID:\t$id\nValue:\t$hash{$id}\n";
}
print "Finished!\n";

复制代码

回复 16# 弦断有谁听1053476508
明天给你第三步的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

18楼 [报告]

发表于 2014-12-16 05:06 |只看该作者

本帖最后由 chenhao392 于 2014-12-16 05:15 编辑

可能的小老乡你好.

既然你是洛阳上的本科，我猜我们多半算半个老乡。我也有高中时代的哥们在那所大学读本科。看在我们是老乡的份上，看在你不停的积极讨论的份上，我也就不潜水了。程序大概给你写完了，请查收。
我理解你的需求是：根据OrthoMCL计算出的同源基因名称，从不同的植物的基因序列 (200 Gb)中，拿到OrthoMCL提到的基因，并把一个同源基因组的存放在一个文件里。

但是！
每一次提问前，请一定要想一想自己的问题是否问的够有效率。这次你忽略了几个比较关键的信息：
1. Step 1-3 似乎是你自己的programming想法。其实不妨把整个需求描述出来，也许别人有更好的办法呢？比如我的code，用到了hash of hash.

2. 一个基因会有多个isoforms，你的ortholog 信息是gene的，而你提供的Allseq.fa 是根据isoform的，直接的ID当然一个match都没有。我的code假设你的Allseq.fa 里的isoform是加了 . (点) 或者 _(下划线) 的。这cover了玉米，水稻和拟南芥，并不一定cover了所有的情况。所以，这个代码你可能还要改。

3. Again, 一个gene有多个isoforms，要选哪一个呢？这要看你的研究课题了。我知道通常会选最长的那一个。

4. 请以后尽量学习用linux，你用windows 下载的Allseq.fa 的换行符，需要多用一个chop，将来记不住自己的代码干了什么的话，会出错。

5. 最重要的是，你真的理解你提供的文件么？
Quote

其中要求生成的ID文件如下：
APK_ORTHOMCL0
416
2
rice sorghum
LOC_Os04g04140
LOC_Os05g29160
LOC_Os10g02640

复制代码

在我看来，数字416 是说这个ortholog在这些物种里一共有多少个copy，数字 2是说有多少个物种里有这个ortholog，在上文中是rice(水稻)和 sorghum(高粱)。我的程序已经考虑了这一点，会从类似 LOC_Os04g04140 的位置读取。

请用严谨认真的态度来做科研和在版面上提出问题。将来perl玩熟练的话，也请回到版面上帮助别人。

此致，
你的半个老乡： chenhao392

run