免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Perl › 对hash怎么进行排序比较快呢？

12 3 / 3 页下一页

最近访问板块

发新帖

查看: 8718 | 回复: 26

上一主题

下一主题

对hash怎么进行排序比较快呢？ [复制链接]

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2014-06-19 17:46 |只看该作者 |倒序浏览

30可用积分

本帖最后由 huang6894 于 2014-06-20 10:51 编辑

在一个perl脚本中，我使用：

open DATA,"> $outdir/tmp.data" or die "$!";
print DATA "$tran\t$chr\t$pos1\t$pos2\t$genename\t$ave\n";
close DATA；
open DATA,"< $outdir/tmp.data" or die "$!";
###其实我是觉得这样写挺傻的，又读又写。。。之前是用一个hash数组存放，对其key值（第六列）排序，可是不知道怎么分开相同key值的两条记录。。。push的时候把他们当做一个数组里面两个元素了。。。。
open OUT,"> $outdir/result.data" or die "$!";
my @all = sort { $b->[-1] <=> $a->[-1] } map [split], <DATA>;
my $five = 5 * $#all / 100;
my $FIVE = int $five;
$five = $five != $FIVE ? ( $FIVE + 1 ) : $FIVE;
my @ok = ( [ 0 .. $five - 1 ], [ -$five .. -1 ] );
for my $i ( $five .. $#all ) {
$all[ $ok[0][-1] ][-1] == $all[$i][-1]
? push @{ $ok[0] }, $i
: last;
}
for my $i ( ( $five + 1 ) .. $#all ) {
$all[ $ok[-1][0] ][-1] == $all[ -$i ][-1]
? unshift @{ $ok[1] }, -$i
: last;
}
print OUT join( "\t", @{ $all[$_] } ), $/ for map @$_, @ok;
close DATA;
close OUT;

复制代码

以上使用的是@rubyish大神的代码

得到类似于：

NM_000402.3 chrX 153759606 153775233 G6PD 66.5543754674645
NM_001042351.1 chrX 153759606 153775787 G6PD 66.5543754674645
NM_000027.3 chr4 178351929 178363657 AGA 0.994475138121547

复制代码

真实情况是,@{$file{$k}}存放了几十万条记录，我只想知道$k大小在前5%和后5%的那些条目…
希望结果是：

NM_000402.3 chrX 153759606 153775233 G6PD 66.5543754674645 max
NM_001042351.1 chrX 153759606 153775787 G6PD 66.5543754674645 max
NM_000027.3 chr4 178351929 178363657 AGA 0.994475138121547 min

复制代码

***************************************************************************************************
4楼@rubyish大神的代码帮了我大忙，谢谢大神的帮忙，非常感谢@q1208c指出题目的错误，感谢@laputa73大神提供的思路。。。
**************************************************************************************************
我是想对第六列进行排序，如果大小在前5%（向上取整）和后5%（向上取整）的条目，输出该行（min/max)，可是对于大数据还是挺慢的，请教一下大神，应该怎么优化呢？

最佳答案

查看完整内容

haishi kan boo dong~

文库|博客

论坛徽章:: 7

戌狗
日期:2013-12-15 20:43:38

技术图书徽章
日期:2014-03-05 01:33:12

技术图书徽章
日期:2014-03-15 20:31:17

未羊
日期:2014-03-25 23:48:20

丑牛
日期:2014-04-07 22:37:44

巳蛇
日期:2014-04-11 21:58:09

15-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13

2楼 [报告]

发表于 2014-06-19 17:46 |只看该作者

haishi kan boo dong~

#!/usr/bin/perl
my @h = sort { $b->[-1] <=> $a->[-1] } map [split], <DATA>;
my $five = 5 * @h / 100;
my $FIVE = int $five;
$five = $five != $FIVE ? ( $FIVE + 1 ) : $FIVE;
my @ok = ( [ 0 .. $five - 1 ], [ -$five .. -1 ] );
for my $i ( $five .. $#h ) {
$h[ $ok[0][-1] ][-1] == $h[$i][-1]
? push @{ $ok[0] }, $i
: last;
}
for my $i ( ( $five + 1 ) .. @h ) {
$h[ $ok[-1][0] ][-1] == $h[ -$i ][-1]
? unshift @{ $ok[1] }, -$i
: last;
}
print join( "\t", @{ $h[$_] } ), $/ for map @$_, @ok;
__DATA__
NM_000015.2 chr8 18248755 18258723 NAT2 18
NM_000017.2 chr12 121163571 121177811 ACADS 21
NM_000019.3 chr11 107992258 108018891 ACAT1 17
NM_001004483.1 chr9 107331449 107332411 OR13C8 10
NM_000016.4 chr1 76190043 76229355 ACADM 8
NM_000018.3 chr17 7123150 7128586 ACADVL 4
NM_000014.4 chr12 9220304 9268558 A2M 4

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

求职 : 软件工程师

论坛徽章:: 3

程序设计版块每日发帖之星
日期:2015-10-07 06:20:00

程序设计版块每日发帖之星
日期:2015-12-13 06:20:00

程序设计版块每日发帖之星
日期:2016-05-05 06:20:00

3楼 [报告]

发表于 2014-06-19 21:34 |只看该作者

首先生成数据，再排序，然后再计算 5% 的界值，最后再进行替换。想一下子搞定，就是自找麻烦。这种问题问法，感觉是伸手党。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

4楼 [报告]

发表于 2014-06-19 22:37 |只看该作者

回复 2# 104359176

嗯嗯，我也是这么做的，可是因为数据比较大，生成后再排序会消耗很多时间，所以我题目就是，怎么排序，比较快………谢谢，谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

5楼 [报告]

发表于 2014-06-20 01:23 |只看该作者

本帖最后由 huang6894 于 2014-06-20 01:35 编辑

回复 4# rubyish

对不起{(-_-)}～其实是,@{$file{$k}}存放了几十万条记录，我只想知道$k大小在前5·%和后5%的那些条目…
大神的代码帮了我大忙，谢谢大神的帮忙，谢谢谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 33

荣誉会员
日期:2011-11-23 16:44:17

天秤座
日期:2014-08-26 16:18:20

天秤座
日期:2014-08-29 10:12:18

丑牛
日期:2014-08-29 16:06:45

丑牛
日期:2014-09-03 10:28:58

射手座
日期:2014-09-03 16:01:17

寅虎
日期:2014-09-11 14:24:21

天蝎座
日期:2014-09-17 08:33:55

IT运维版块每日发帖之星
日期:2016-04-17 06:23:27

操作系统版块每日发帖之星
日期:2016-04-18 06:20:00

IT运维版块每日发帖之星
日期:2016-04-24 06:20:00

15-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59

6楼 [报告]

发表于 2014-06-20 08:37 |只看该作者

这么大的数据量, 还要排序列三次, 我看, 怎么排也快不到哪里去.

可否在第一个循环里就搞定呢.

说实话, 我的perl是自学的, 很多高级特性都不懂. 所以, 实在没办法看懂楼主后两个循环是在做什么.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

7楼 [报告]

发表于 2014-06-20 08:53 |只看该作者

回复 6# q1208c

第一次循环进行排序嘛，然后第二次、第三次是为了取前后5%的值

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 42

19周年集字徽章-周
日期:2019-10-14 14:35:31

平安夜徽章
日期:2015-12-26 00:06:30

数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00

2015亚冠之首尔
日期:2015-11-04 22:25:43

IT运维版块每日发帖之星
日期:2015-08-17 06:20:00

寅虎
日期:2014-06-04 16:25:27

狮子座
日期:2014-05-12 11:00:00

辰龙
日期:2013-12-20 17:07:19

射手座
日期:2013-10-24 21:01:23

CU十二周年纪念徽章
日期:2013-10-24 15:41:34

IT运维版块每日发帖之星
日期:2016-01-27 06:20:00

15-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01

8楼 [报告]

发表于 2014-06-20 09:07 |只看该作者

为啥要进行排序?您的需求不是只是输出前5%和后5%?
先计算出门限,一次遍历不就搞定了?
如果输出需要排序,在过滤后的数据再排序不是快得多?(因为就剩10%数据了)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 8

技术图书徽章
日期:2013-08-22 11:21:28

未羊
日期:2015-01-19 22:22:25

巳蛇
日期:2014-08-11 16:53:08

子鼠
日期:2014-05-29 09:04:44

摩羯座
日期:2014-04-11 14:15:07

丑牛
日期:2014-01-24 12:41:28

金牛座
日期:2013-11-21 17:38:28

射手座
日期:2015-01-21 08:50:32

9楼 [报告]

发表于 2014-06-20 09:25 |只看该作者

回复 8# laputa73

对呀，我就是想这样。。。可是我做不到

不会~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 33

荣誉会员
日期:2011-11-23 16:44:17

天秤座
日期:2014-08-26 16:18:20

天秤座
日期:2014-08-29 10:12:18

丑牛
日期:2014-08-29 16:06:45

丑牛
日期:2014-09-03 10:28:58

射手座
日期:2014-09-03 16:01:17

寅虎
日期:2014-09-11 14:24:21

天蝎座
日期:2014-09-17 08:33:55

IT运维版块每日发帖之星
日期:2016-04-17 06:23:27

操作系统版块每日发帖之星
日期:2016-04-18 06:20:00

IT运维版块每日发帖之星
日期:2016-04-24 06:20:00

15-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59

10楼 [报告]

发表于 2014-06-20 09:34 |只看该作者

回复 7# huang6894
你第一个循环排序的是 key 呀. 并不是你说的第6列呀.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 / 3 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Perl › 对hash怎么进行排序比较快呢？

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP