123 / 3 页下一页

perl脚本占用资源比较大，怎么找原因呢？ [复制链接]

toniz

富足长乐

论坛徽章:: 0

11楼 [报告]

发表于 2010-05-07 10:41 |只看该作者

{:3_198:} 正则尽量少，可以尝试改成这样：

\s+(http:\/\/.+?)\s+

复制代码

代码运行时，用free -m,看交换区使用情况，如果交换区耗光，则应该是哈希太大。可以考虑分几次写入文件。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

py

版主

论坛徽章:: 1

12楼 [报告]

发表于 2010-05-07 14:25 |只看该作者

推荐楼主用Devel::NYTProf

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ioerr

家境小康

论坛徽章:: 0

13楼 [报告]

发表于 2010-05-08 17:14 |只看该作者

我问个题外话，你的日志是tcpdump生成的么？多大个，怎样生成的，用了多少时间？

我也想处理我的日志，就是tcpdump -w日志，想导出为txt，但是太浪费时间了，200M+需要大概2.5小时。

有什么好办法么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

chenryn

稍有积蓄

论坛徽章:: 1

14楼 [报告]

发表于 2010-05-09 00:32 |只看该作者

正则尽量少，可以尝试改成这样：代码运行时，用free -m,看交换区使用情况，如果交换区耗光，则应 ...
toniz 发表于 2010-05-07 10:41

怎样的正则才是性能比较好的呢？
这个问题我也问过提供这个脚本的同事，他的回答是匹配度越高越好。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yigenjin

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2010-05-09 09:24 |只看该作者

回复 6# Osment

没有oi，但是人家有qr。

并且，i跟你说的性能上不仅仅没有优化，理论上应该更慢。i是ignore case sensitiive。
o才是只编译正则一次。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yigenjin

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2010-05-09 09:38 |只看该作者

1273144492.670 9 121.14.225.183 TCP_IMS_HIT/304 236 GET http://www.ggv.com.cn/downfiles/20070815_135941_1.rar - NONE/- text/plain "http://down.ggv.com.cn/down/cnt_n_down.php?id=698400&flag=1" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"
脚本里相关部分是：
my $log_pattern = qr '^.*?\d+\s+\w+\s+(http:\/\/.+?)\s+.+';

复制代码

没有什么想不明白的。正则表达式只是为了写得尽可能准确。越准确正则引擎需要做的猜测类工作越少，性能相对越好。
正则分解如下：
/
^.*? # 前面那些
\d+  # 上面的236
\s+  # 空白
\w+  # GET
\s+  # 空白
(http:\/\/.+?) # url
\s+ # 空白
.+  # 后面剩余的
/
这个正则不一定非要这样写，但目的只有两个：
1. 能够匹配，这是做这件事的根本目的，
2. 严谨，如果使用split速度肯定更快，但是如果日志里有不完整或者残缺或者不准确的日志的话，split将出问题，而且直接使用split (//, @list)[7]可能会被perl报一个uninitialized value的错误信息；
3. 正则写的相对完整，完整意味着“描述上没有含糊不清，更精确”，体现了2的严谨，也能提高速度。否则直接写个：
^.*?http:\/\/.+\s+.+就能匹配出来了，但速度上你可以测试下。

但是这个正则前面的.*?可以进行进一步优化。因为这样正则引擎在匹配的时候可能需要做的步骤是：
因为加了非贪婪的?，首先匹配：
将.*?当成空白跟后面的正则加在一起，看能否匹配成功，如果匹配失败，则：
将.*?当成一个字符，进行匹配，如果匹配失败，则：
再向右读取一个字符再匹配，循环，一直到匹配成功为止。