免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123
最近访问板块 发新帖
楼主: huang6894
打印 上一主题 下一主题

对hash怎么进行排序比较快呢? [复制链接]

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
21 [报告]
发表于 2014-06-20 22:50 |只看该作者
回复 18# rubyish


    嗯嗯,rubyish大神说的对。。。。不会表达问题,导致各位大神一头雾水实在是太对不起了。。。也非常感谢大家还是愿意提供各种的思路。

这里说明一下,因为数据的生成是前面代码调用某个命令执行后生成的大数据。

但是这个数据是没有顺序规律的,我对这些数据首先

1、每读入一行,split并赋值,对应位置分别得到$tran、$chr、$pos1、$pos2、$genename、$ave,对应的数据格式类似于NM_000402.3     chrX    153759606       153775233       G6PD    66.5543754674645 ,想要排序的变量是$ave;
2、每处理一行存进文本(之前是存进数组的,因为不想后面又打开,但是发现存进数组后不知道怎么分开相同key值的两条记录。。。push的时候把他们当做一个数组里面两个元素了。。。。),这里因为每次只能处理一行,无法排序,考虑过每次都与前面的比较的方法,发现时间复杂度更高后放弃;
3、整个文本得到之后,我如果只想要第六列($ave)数值大小位于所有$ave值中排列在前后5%的记录,输出到新文本;

问题是:第二步得到的文本数据量特别大,我应该怎么做能够得到“第六列($ave)数值大小位于所有$ave值中排列在前后5%的记录,输出到新文本”呢?

谢谢各位大神了。。。。

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
22 [报告]
发表于 2014-06-21 07:53 |只看该作者
回复 20# huang6894


看了你的新描述, 我觉得你的问题是不是可以这样处理.

不需要split, 直接对原始文件sort, 使用shell的sort程序, 按你的第6列数字方式 sort, 类似 "sort -t <分隔符> -nk6 <your file>  > <yourfile.sorted>"
然后, wc -l yourfile.sorted 得出总的行数(记录数)

然后,就可以计算出你需要的min 5% 和 max 5%. 使用  head -n xx 和 tail -n xx 就可以得到你想要的行数了.

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
23 [报告]
发表于 2014-06-21 09:40 |只看该作者
回复 21# q1208c


    大神的建议不是没考虑过的,我用shell脚本重新弄了一遍,发现效率还不如perl只好放弃了……

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
24 [报告]
发表于 2014-06-21 09:56 |只看该作者
回复 22# huang6894

可否贴一段你的原始文件上来看看.
我觉得不该这么差呀.
   

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
25 [报告]
发表于 2014-06-21 23:06 |只看该作者
回复 23# q1208c


    真正的原始文件还真没有,经过某命令产生的条目就是帖子上面的………

论坛徽章:
7
戌狗
日期:2013-12-15 20:43:38技术图书徽章
日期:2014-03-05 01:33:12技术图书徽章
日期:2014-03-15 20:31:17未羊
日期:2014-03-25 23:48:20丑牛
日期:2014-04-07 22:37:44巳蛇
日期:2014-04-11 21:58:0915-16赛季CBA联赛之青岛
日期:2016-03-17 20:36:13
26 [报告]
发表于 2014-06-26 01:43 |只看该作者
my @a = map { int rand 10000 } 1 .. 500000;  # 50万
my @b = sort { $a <=> $b } @a;


__DATA__
real    0m0.783s
user    0m0.733s
sys     0m0.047s

yinggai wenti meiyou jiejue? wo shizai kan bu dong wenti~

zhege wenti
ni keyi wenwen jason680 ( dan ni yao ba wenti shuo qingchu )

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
27 [报告]
发表于 2014-06-26 09:12 |只看该作者
回复 25# rubyish


    恩恩,好的,谢谢大神,我下次一定注意~谢谢谢谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP