免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3542 | 回复: 9
打印 上一主题 下一主题

交叉比对,取最大的,求思路或者程序。 [复制链接]

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-01 11:30 |只看该作者 |倒序浏览
有两个输入 :

file1:::::gene_list.txt
PEX19
NDUFS2

file2:::::NM.txt
NM_015840        ADAR        15        3603
NM_001111        ADAR        15        3681
NM_001193495        ADAR        14        2796
NM_001025107        ADAR        14        2796
NM_002857        PEX19        8        900
NR_036493        PEX19        1        2
NR_036492        PEX19        1        2
NM_001193644        PEX19        8        840
NM_004550        NDUFS2        14        1392
NM_001166159        NDUFS2        13        1374
NM_020435        GJC2        1        1320

NM中第二列(ADAR)在gene_list存在,比如PEX19有四个符合的,
NM_002857        PEX19        8        900
NR_036493        PEX19        1        2
NR_036492        PEX19        1        2
NM_001193644        PEX19        8        840
第三列取最大的,此处是8,有两个,取第四行最大的900,
print OUT NM_002857        PEX19        8        900;

我正在写程序,但是写的好复杂,请问各位大神,能提示一下么!

论坛徽章:
8
技术图书徽章
日期:2013-09-30 08:51:28技术图书徽章
日期:2013-12-11 09:26:39白羊座
日期:2013-12-27 15:27:13金牛座
日期:2014-01-06 09:13:05天蝎座
日期:2014-01-21 14:23:28酉鸡
日期:2014-05-09 16:51:12卯兔
日期:2014-08-11 16:49:1515-16赛季CBA联赛之八一
日期:2017-08-14 23:24:57
2 [报告]
发表于 2015-09-01 12:11 |只看该作者
本帖最后由 xiumu2280 于 2015-09-01 12:16 编辑

简单的写了一下,本质应该是个排序问题,用了引用

这样的写法应该可以找到每个基因对应的数值最大条目

后续还需要你自己更改一下
  1. use strict;
  2. use warnings;
  3. use Data::Dumper;
  4. use File::Basename;


  5. my %hash;

  6. while (<DATA>) {
  7.         chomp;
  8.         my @data = split /\s+/,my $line = $_;
  9.         if ($hash{$data[1]}) {
  10.                 if (($data[2] == $hash{$data[1]}->[2] && $data[3] > $hash{$data[1]}->[3]) || $data[2] > $hash{$data[1]}->[2]) {
  11.                         $hash{$data[1]} = \@data;
  12.                 }
  13.         }else{
  14.                 $hash{$data[1]} = \@data;
  15.         }
  16.        
  17. }


  18. print Dumper \%hash;


  19. __DATA__
  20. NM_015840        ADAR        15        3603
  21. NM_001111        ADAR        15        3681
  22. NM_001193495        ADAR        14        2796
  23. NM_001025107        ADAR        14        2796
  24. NM_002857        PEX19        8        900
  25. NR_036493        PEX19        1        2
  26. NR_036492        PEX19        1        2
  27. NM_001193644        PEX19        8        840
  28. NM_004550        NDUFS2        14        1392
  29. NM_001166159        NDUFS2        13        1374
  30. NM_020435        GJC2        1        1320
复制代码

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
3 [报告]
发表于 2015-09-01 12:30 |只看该作者
回复 1# 54red


    把你的代码贴上来看看

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2015-09-01 12:54 |只看该作者
回复 1# 54red

>>...求思路

先读取file2,第二列当key,保存最大值,就好了...

第一笔,没有key资料(新资料),直接(最大值)保存
NM_015840        ADAR        15        3603
key: ADAR   
$gene{'ADAR'} = [( NM_015840        ADAR        15        3603 )]   # 思路,非程序代码

下一笔,先比第三列,再比第四列
NM_015840        ADAR        15      3683
key: ADAR   
$gene{'ADAR'} = [( NM_015840        ADAR        15        3683 )]   # 思路,非程序代码
保存最大值


再读取file1,依key值读取(最大值)
$gene{'PEX19'} <--- 保存最大值

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
5 [报告]
发表于 2015-09-01 13:12 |只看该作者
十分谢谢!我一直在看你的代码学习perl,可是引用这块始终没学好,再次谢谢!回复 2# xiumu2280


   

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
6 [报告]
发表于 2015-09-01 13:15 |只看该作者
谢谢jason680大神的思路,还把关键的引用怎么写都给我写好了 ^^回复 4# jason680


   

论坛徽章:
0
7 [报告]
发表于 2015-09-01 14:54 |只看该作者

  1. my @genelist = qw/PEX19 NDUFS2/;
  2. my %gene = map { $_, 1 } @genelist;
  3. my %nm;

  4. while (<DATA>) {
  5.     my ( undef, $key, $v1, $v2 ) = split;
  6.     next unless $gene{$key};

  7.     if ( exists $nm{$key} ) {
  8.         next if $v1 < $nm{$key}[0];

  9.         if ( $v1 > $nm{$key}[0] or $v2 > $nm{$key}[1] ) {
  10.             $nm{$key} = [ $v1, $v2, $_ ];
  11.         }
  12.     }
  13.     else {
  14.         $nm{$key} = [ $v1, $v2, $_ ];
  15.     }
  16. }

  17. print $_->[2] for values %nm;

  18. __DATA__
  19. NM_015840        ADAR        15        3603
  20. NM_001111        ADAR        15        3681
  21. NM_001193495        ADAR        14        2796
  22. NM_001025107        ADAR        14        2796
  23. NM_002857        PEX19        8        900
  24. NR_036493        PEX19        1        2
  25. NR_036492        PEX19        1        2
  26. NM_001193644        PEX19        8        840
  27. NM_004550        NDUFS2        14        1392
  28. NM_001166159        NDUFS2        13        1374
  29. NM_020435        GJC2        1        1320
复制代码

论坛徽章:
3
2015亚冠之武里南联
日期:2015-07-29 12:14:352015年亚冠纪念徽章
日期:2015-08-12 14:28:272015亚冠之德黑兰石油
日期:2015-09-09 17:15:52
8 [报告]
发表于 2015-09-01 17:34 |只看该作者
刚刚看见你的程序,谢谢啦!今天下班了,明天再仔细看看 ~回复 7# ba_du_co


   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
9 [报告]
发表于 2016-03-08 01:45 |只看该作者
其实你的问题在于不要将解决问题的思路放在细节, 从整体看待这个问题就相对好解决一些.

论坛徽章:
6
15-16赛季CBA联赛之新疆
日期:2016-03-22 22:34:5915-16赛季CBA联赛之山东
日期:2016-04-11 09:08:41程序设计版块每日发帖之星
日期:2016-06-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-19 06:20:00每日论坛发贴之星
日期:2016-07-19 06:20:0015-16赛季CBA联赛之青岛
日期:2016-07-20 22:44:17
10 [报告]
发表于 2016-03-09 00:56 |只看该作者
my @genelist = qw/PEX19 NDUFS2/;
my %gene = map { $_, 1 } @genelist;

while (<DATA>) {
    my ( undef, $key, $v1, $v2 ) = split;
    next unless $gene{$key};
    $OUT->{$key}->{$v1 * 1000000 + $v2} = $_;
}
map {
  print $OUT->{$_}->{(sort {$b<=>$a} keys %{$OUT->{$_}})[0]} ;
}sort keys %$OUT;

__DATA__
NM_015840        ADAR        15        3603
NM_001111        ADAR        15        3681
NM_001193495        ADAR        14        2796
NM_001025107        ADAR        14        2796
NM_002857        PEX19        8        900
NR_036493        PEX19        1        2
NR_036492        PEX19        1        2
NM_001193644        PEX19        8        840
NM_004550        NDUFS2        14        1392
NM_001166159        NDUFS2        13        1374
NM_020435        GJC2        1        1320


$> perl test.pl
NM_004550        NDUFS2        14        1392
NM_002857        PEX19        8        900

评分

参与人数 1信誉积分 +10 收起 理由
54red + 10 很给力!

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP