免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 7200 | 回复: 20
打印 上一主题 下一主题

perl语言文本处理能力测试 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-09-14 20:39 |只看该作者 |倒序浏览
perl语言文本处理能力测试

1.实验环境

pc:CPU 2.5Ghz;MEM 1.5GB;HD 120G

system:windows xp sp3

perl:ActivePerl 5.8.9 Build 826

2.测试脚本自备

被测试文件:纯文本,中文,130MB,1027600行,字符数(不含空格)134946000个

正则表达式查询内容:中间件

测试脚本工作:统计匹配次数

3.测试结果

整个处理时间:3秒

找到匹配 441000个

4.测试分析

Perl 一般被称为“实用报表提取语言”(Practical Extraction and Report Language)

对于文本文件处理比C语言快,原因是
a.perl使用C语言开发,保持C语言的高效性。
b.C语言按字符流读取数据,perl语言按行流读取数据,按行流读比按字符流读要快得多。
c.针对文本处理进行了优化。

5.测试小结

海量文本文件处理应该使用perl语言,这也是Larry Wall设计perl语言的原因。

perl的存在使得在windows平台处理海量文本文件成为可能,UNIX/LINUX中还有awk、sed、shell(grep)可以选择,而windows平台不提供高效的处理程序。

6.测试引申

整个处理时间:3秒,还有误差,有兴趣的同学可以自己实验将输入数据量提高到1GB,这样测试样本处理时间的准确率更高。

[ 本帖最后由 shangyilong 于 2009-9-15 11:10 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-09-14 21:14 |只看该作者
很好!

论坛徽章:
0
3 [报告]
发表于 2009-09-14 21:44 |只看该作者
LZ的分享精神值得表扬......

还是忍不住要泼下冷水....  不好意思.
希望LZ不要介意。
a.perl使用C语言开发,保持C语言的高效性。

这个不一定....
b.C语言按字符流读取数据,perl语言按行流读取数据,按行流读比按字符流读要快得多。

1. c也可以按行读.
2. 按行读有时会比较快, 但要具体问题具体分析.
c.针对文本处理进行了优化。

这个正确  但我感觉说成 perl针对文本处理中的那些最常见情况进行了优化比较好。


正则表达式查询内容:中间件

这个指的是什么

论坛徽章:
0
4 [报告]
发表于 2009-09-15 08:09 |只看该作者
测试是要贴代码的 快慢跟你写的代码有直接关系  理论上C是要比perl快的  实现上的快慢取决于人

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
5 [报告]
发表于 2009-09-15 08:12 |只看该作者

论坛徽章:
0
6 [报告]
发表于 2009-09-15 09:07 |只看该作者

回复 #3 DQP 的帖子

1.perl使用C语言开发,你不信可以去问Larry Wall

2.没听说C可以按行流读数据。

[ 本帖最后由 shangyilong 于 2009-9-15 09:09 编辑 ]

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
7 [报告]
发表于 2009-09-15 09:13 |只看该作者
原帖由 shangyilong 于 2009-9-15 09:07 发表
1.perl使用C语言开发,你不信可以去问Larry Wall

2.没听说C可以按行流读数据。


虽然不懂C,但怎么感觉这2条说的明显矛盾呢。

既然perl是用C开发的,而C又不能实现按行流读数据,那么perl是怎么实现按行流读数据的呢?

论坛徽章:
0
8 [报告]
发表于 2009-09-15 09:16 |只看该作者
原帖由 ly5066113 于 2009-9-15 09:13 发表


虽然不懂C,但怎么感觉这2条说的明显矛盾呢。

既然perl是用C开发的,而C又不能实现按行流读数据,那么perl是怎么实现按行流读数据的呢?


C可以编程实现按行流读数据,但是不是从文件读数据的默认方式,这么说应该没有歧义。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
9 [报告]
发表于 2009-09-15 10:29 |只看该作者
率领大家围观楼主,呵呵。

楼主的特点就是故作惊人之语,尤其喜欢在 Perl 版这样做。

论坛徽章:
0
10 [报告]
发表于 2009-09-15 11:16 |只看该作者

回复 #4 hitsubunnu 的帖子

C语言对远东语言支持不如perl语言。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP