论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-05-04 21:48 |只看该作者 |倒序浏览

请教个问题：
用perl处理一个160万行的文本文件，每一行都需要进行正则表达式检查，最后将符合条件的行存入hash表里(key=行号,value=这行的内容)。
结果需要4.5分钟的时间，是不是有点慢啊。
code：
use Tie::File
tie @srcarray, 'Tie::File','C:\Perl\ddd.txt';
foreach $temp (@srcarray) {
   $line = $temp;
   chomp ($line);
      ...............
      $hash_table{$line_number} = $line;
}
后来，使用了
open (FIEL,'C:\Perl\ddd.txt')
while ($line = <FIEL>) {
   ..........
}
也要4分多钟。
请教一下，是否有更好的办法处理大文件。

文库|博客

shuiyi193202

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2013-05-04 22:00 |只看该作者

自己顶一下，这么难吗？大家有啥想法可以说说嘛。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Perlvim

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2013-05-04 22:03 |只看该作者

160万行的数据，如果将结果保存在一个散列中，那么这个散列将会越来越大。
通常I/O接口的效率最低，如果出一条记录，就写一条记录。但很多的输出输出都做了缓存优化。
正则匹配的效率就很关键了，一个贪婪的算法，效率至少要慢几十倍。

测试到底哪个地方浪费了时间，可以不进行任何匹配。
直接出结果。
可以参照 <<Perl 最佳实践>>第六章的线性编码部分，这些建议很好，可读性强，效率也高。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

afukada

稍有积蓄

论坛徽章:: 0

4楼 [报告]

发表于 2013-05-04 23:00 |只看该作者

可以使用

local $/;
$string=<input>;

复制代码

將檔案讀成一個string

然後再用

While($string=~/比對樣式/g)
{
...
}

复制代码

的方式將所需的資料抓出來

如果要在更快

只要先行將比對樣式的部分compile就可以再增加速度

但是這個方法有一個問題

就是你有提到你要行號來作為key

我不知道這個是不是必須的

給你參考看看{:3_193:}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shuiyi193202

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2013-05-05 12:13 |只看该作者

回复 3# Perlvim

去掉所有的正则表达式检查，仅仅读取文件，放入hash table里，用了仅仅14s，非常快。
感觉时间都浪费在了正则表达式上面了，不知可否优化？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shuiyi193202

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2013-05-05 12:17 |只看该作者

回复 4# afukada

行号是必须作为key的，不过正则匹配部分compile成C++的话，应当会很快吧？
但是编写流程不是很清楚，刚刚涉及perl，如何调用c++还不是很清楚啊，希望指点一二。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

laputa73

巨富豪门

论坛徽章:: 42

7楼 [报告]

发表于 2013-05-05 12:18 |只看该作者

回复 5# shuiyi193202

看看你的正则,是否写得有问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rongchaogao

白手起家

论坛徽章:: 1

8楼 [报告]

发表于 2013-05-05 12:44 |只看该作者

其实还好了，没必要太重视效率，正确性是第一位的，又不是非常紧迫的！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Perlvim

小富即安

论坛徽章:: 0

9楼 [报告]

发表于 2013-05-05 12:45 |只看该作者

正则匹配的效率根据不同的匹配表达式，效率相差千万倍。
可以参照 Perl高效编程中关于优化正则表达式的几个准则。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenhao392

稍有积蓄

论坛徽章:: 1

10楼 [报告]

发表于 2013-05-06 14:52 |只看该作者

1. 对于bioinfo 的问题，很多时候要注意利用文件格式。正则是不得已而用之，substr更好，例如PDB格式。

2. 如果是NGS的data，while (<FILE>){}这个loop是很好用的了。

3. 如楼上所言，不同RE效率差别很大。

4. 你真的在乎这个4min么？对于只是自己用的code，一般可以忍，或者切割文件，处理了再合并。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › perl处理大数据文件的性能问题

perl处理大数据文件的性能问题 [复制链接]

浏览过的版块