1 23 / 3 页

论坛徽章:: 8

21楼 [报告]

发表于 2014-06-20 22:50 |只看该作者

回复 18# rubyish

嗯嗯，rubyish大神说的对。。。。不会表达问题，导致各位大神一头雾水实在是太对不起了。。。也非常感谢大家还是愿意提供各种的思路。

这里说明一下，因为数据的生成是前面代码调用某个命令执行后生成的大数据。

但是这个数据是没有顺序规律的，我对这些数据首先

1、每读入一行，split并赋值，对应位置分别得到$tran、$chr、$pos1、$pos2、$genename、$ave，对应的数据格式类似于NM_000402.3 chrX 153759606 153775233 G6PD 66.5543754674645 ，想要排序的变量是$ave；
2、每处理一行存进文本（之前是存进数组的，因为不想后面又打开，但是发现存进数组后不知道怎么分开相同key值的两条记录。。。push的时候把他们当做一个数组里面两个元素了。。。。)，这里因为每次只能处理一行，无法排序，考虑过每次都与前面的比较的方法，发现时间复杂度更高后放弃;
3、整个文本得到之后，我如果只想要第六列（$ave)数值大小位于所有$ave值中排列在前后5%的记录，输出到新文本；

问题是：第二步得到的文本数据量特别大，我应该怎么做能够得到“第六列（$ave)数值大小位于所有$ave值中排列在前后5%的记录，输出到新文本”呢？

谢谢各位大神了。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

22楼 [报告]

发表于 2014-06-21 07:53 |只看该作者

回复 20# huang6894

看了你的新描述, 我觉得你的问题是不是可以这样处理.

不需要split, 直接对原始文件sort, 使用shell的sort程序, 按你的第6列数字方式 sort, 类似 "sort -t <分隔符> -nk6 <your file> > <yourfile.sorted>"
然后, wc -l yourfile.sorted 得出总的行数(记录数)

然后,就可以计算出你需要的min 5% 和 max 5%. 使用 head -n xx 和 tail -n xx 就可以得到你想要的行数了.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

23楼 [报告]

发表于 2014-06-21 09:40 |只看该作者

回复 21# q1208c

大神的建议不是没考虑过的，我用shell脚本重新弄了一遍，发现效率还不如perl只好放弃了……

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

24楼 [报告]

发表于 2014-06-21 09:56 |只看该作者

回复 22# huang6894

可否贴一段你的原始文件上来看看.
我觉得不该这么差呀.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

25楼 [报告]

发表于 2014-06-21 23:06 |只看该作者

回复 23# q1208c

真正的原始文件还真没有，经过某命令产生的条目就是帖子上面的………

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rubyish

大富大贵

论坛徽章:: 7

26楼 [报告]

发表于 2014-06-26 01:43 |只看该作者

my @a = map { int rand 10000 } 1 .. 500000; # 50万
my @b = sort { $a <=> $b } @a;

__DATA__
real 0m0.783s
user 0m0.733s
sys 0m0.047s

yinggai wenti meiyou jiejue? wo shizai kan bu dong wenti~

zhege wenti
ni keyi wenwen jason680 ( dan ni yao ba wenti shuo qingchu )

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

27楼 [报告]

发表于 2014-06-26 09:12 |只看该作者

回复 25# rubyish

恩恩，好的，谢谢大神，我下次一定注意~谢谢谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 对hash怎么进行排序比较快呢？

对hash怎么进行排序比较快呢？ [复制链接]