免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6390 | 回复: 10
打印 上一主题 下一主题

perl处理大数据文件的性能问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-05-04 21:48 |只看该作者 |倒序浏览
请教个问题:
用perl处理一个160万行的文本文件,每一行都需要进行正则表达式检查,最后将符合条件的行存入hash表里(key=行号,value=这行的内容)。
结果需要4.5分钟的时间,是不是有点慢啊。
code:
use Tie::File
tie @srcarray, 'Tie::File','C:\Perl\ddd.txt';
foreach $temp (@srcarray) {
     $line = $temp;
     chomp ($line);
         ...............
         $hash_table{$line_number} = $line;
}
后来,使用了
open (FIEL,'C:\Perl\ddd.txt')
while ($line = <FIEL>) {
       ..........
}
也要4分多钟。
请教一下,是否有更好的办法处理大文件。

论坛徽章:
0
2 [报告]
发表于 2013-05-04 22:00 |只看该作者
自己顶一下,这么难吗?大家有啥想法可以说说嘛。

论坛徽章:
0
3 [报告]
发表于 2013-05-04 22:03 |只看该作者
160万行的数据,如果将结果保存在一个散列中,那么这个散列将会越来越大。
通常I/O接口的效率最低,如果出一条记录,就写一条记录。但很多的输出输出都做了缓存优化。
正则匹配的效率就很关键了,一个贪婪的算法,效率至少要慢几十倍。

测试到底哪个地方浪费了时间,可以不进行任何匹配。
直接出结果。
可以参照 <<Perl 最佳实践>>第六章的线性编码部分,这些建议很好,可读性强,效率也高。


论坛徽章:
0
4 [报告]
发表于 2013-05-04 23:00 |只看该作者
可以使用
  1. local $/;
  2. $string=<input>;
复制代码
將檔案讀成一個string

然後再用
  1. While($string=~/比對樣式/g)
  2. {
  3.   ...
  4. }
复制代码
的方式將所需的資料抓出來

如果要在更快

只要先行將比對樣式的部分compile就可以再增加速度

但是這個方法有一個問題

就是你有提到你要行號來作為key

我不知道這個是不是必須的

給你參考看看{:3_193:}

论坛徽章:
0
5 [报告]
发表于 2013-05-05 12:13 |只看该作者
回复 3# Perlvim

去掉所有的正则表达式检查,仅仅读取文件,放入hash table里,用了仅仅14s,非常快。
感觉时间都浪费在了正则表达式上面了,不知可否优化?
   

论坛徽章:
0
6 [报告]
发表于 2013-05-05 12:17 |只看该作者
回复 4# afukada

行号是必须作为key的,不过正则匹配部分compile成C++的话,应当会很快吧?
但是编写流程不是很清楚,刚刚涉及perl,如何调用c++还不是很清楚啊,希望指点一二。
   

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
7 [报告]
发表于 2013-05-05 12:18 |只看该作者
回复 5# shuiyi193202


    看看你的正则,是否写得有问题

论坛徽章:
1
处女座
日期:2014-03-28 10:11:00
8 [报告]
发表于 2013-05-05 12:44 |只看该作者
其实还好了,没必要太重视效率,正确性是第一位的,又不是非常紧迫的!

论坛徽章:
0
9 [报告]
发表于 2013-05-05 12:45 |只看该作者
正则匹配的效率根据不同的匹配表达式,效率相差千万倍。
可以参照 Perl高效编程 中关于优化正则表达式的几个准则。

论坛徽章:
1
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00
10 [报告]
发表于 2013-05-06 14:52 |只看该作者
1. 对于bioinfo 的问题,很多时候要注意利用文件格式。正则是不得已而用之,substr更好,例如PDB格式。

2. 如果是NGS的data,while (<FILE>){}这个loop是很好用的了。

3. 如楼上所言,不同RE效率差别很大。

4. 你真的在乎这个4min么?对于只是自己用的code,一般可以忍,或者切割文件,处理了再合并。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP