123 / 3 页下一页

请没有方法替换该死的split^_^ [复制链接]

ttcn_cu

富足长乐

论坛徽章:: 1

11楼 [报告]

发表于 2009-11-12 17:16 |只看该作者

回复 #10 sammyjeep 的帖子

就算是200列,应该也可以用正则实现吧,就是大括号的数字变一下,还有,分组也可以取好几个,当然,组号如果不能确定,或者取决于某组的数字结果,就有点麻烦了.

btw 字符串相等应该用 eq 吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ttcn_cu

富足长乐

论坛徽章:: 1

12楼 [报告]

发表于 2009-11-12 17:18 |只看该作者

回复 #8 linuxty 的帖子

太细节的东西不大去记,因为发现记了也记不住

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sammyjeep

白手起家

论坛徽章:: 0

13楼 [报告]

发表于 2009-11-12 19:19 |只看该作者

回复 #11 ttcn_cu 的帖子

呵呵，因为具体的需求很长，没有详细说明。
而匹配的条件是可配置的，而用正则是表达式做配置项时可维护性比较差，在使用正则方式时要把读出的匹配条件做相应的转换，所以使用起来稍稍有点麻烦。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wxlfh

家境小康

论坛徽章:: 1

14楼 [报告]

发表于 2009-11-13 08:36 |只看该作者

原帖由 sammyjeep 于 2009-11-12 15:24 发表
#!/usr/bin/perl

$line="1111|2222|3333|4444|5555|6666|7777|1|";
@F=split(/\|/, $line);
if ($F[7]=="1")
{
print "$line\n";
}

我想判断第八个列是不是1，现在只能把整个字符串都split后使得 ...

@list = (1, 2, 3, 4); #在这里放入你需要的列号，从0开始计数的哦
@F = (split /\|/, $line)[@list];

复制代码

不知道这样会不会快一点。就是把你需要的列放入数组@F中，然后自己处理。

[ 本帖最后由 wxlfh 于 2009-11-13 08:38 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

orangetouch

稍有积蓄

论坛徽章:: 0

15楼 [报告]

发表于 2009-11-13 09:52 |只看该作者

原帖由 sammyjeep 于 2009-11-12 15:09 发表
写了一段处理文本代码，把文件中满足条件的记录取出来，现在的处理能力是45万条记录/每分钟。无法再优化了，在定位的过程中发现目前的瓶颈在split。大约60%左右的时间都在处理split(/\|/, $line);，目前成为瓶颈 ...

如果最后3个字符一定是|1|的话，直接找就行了

$t="1111|2222|3333|4444|5555|6666|7777|1|"; -1 != index $t, "|1|", length( $t ) - 3

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw

版主

论坛徽章:: 1

16楼 [报告]

发表于 2009-11-13 11:06 |只看该作者

回复 #15 orangetouch 的帖子

这个效率其实很差

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

orangetouch

稍有积蓄

论坛徽章:: 0

17楼 [报告]

发表于 2009-11-13 11:20 |只看该作者

原帖由 flw 于 2009-11-13 11:06 发表
这个效率其实很差

呃……

我还是对比了一下才敢贴上来的，比split /\|/要快

不过好像这样会更快一点

$t=~/\|1\|$/

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sammyjeep

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2009-11-13 17:23 |只看该作者

回复 #14 wxlfh 的帖子

呵呵，多谢各位帮忙。
我两天的测试下来，已经有了初步的分析结果，性能的排序大概可以分为如下：
测试条件，文本文件约2000个，共45万行，每行有2百列，其中用到第77,81,85,89,93列，处理环境 Intel某64位处理器，型号不详；内置磁盘；8G内存；操作系统SLES10 SP01

1.ttcn_cu所的正则是表达式法，在到CU发贴前我也比较倾向的方法，处理时间约13秒，缺点是在复杂条件下不太灵活，作为配置项不易读，可维护性差。
2.@F=split(/\|/, $line, 94); 处理时间42秒，处理起来简单可把条件直接作为配置项在if中使用eval来使用。
3.wxlfh 所说的@F = (split /\|/, $line)[@list]; 处理时间42秒，和上一个方法基本一致，估计原理也差不多。
4.@F=split(/\|/, $line); 处理时间58秒，和2，3比较就可以知道分割字符多少对性能影响还是比较大的。

出于综合考虑可能会先用二来实现，后续改为用方法一。

我是从ksh+sed+awk转为使用perl的，后面还要多多请教啊，呵呵。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

danssion

稍有积蓄

论坛徽章:: 0

19楼 [报告]

发表于 2009-11-13 17:55 |只看该作者

还是正则牛啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

redicaps

家境小康

论坛徽章:: 0

20楼 [报告]

发表于 2009-11-14 10:05 |只看该作者

原帖由 sammyjeep 于 2009-11-13 17:23 发表
呵呵，多谢各位帮忙。
我两天的测试下来，已经有了初步的分析结果，性能的排序大概可以分为如下：
测试条件，文本文件约2000个，共45万行，每行有2百列，其中用到第77,81,85,89,93列，处理环境 Intel某64位处 ...

正则居然比split快。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 请没有方法替换该死的split^_^

请没有方法替换该死的split^_^ [复制链接]

回复 #10 sammyjeep 的帖子

回复 #8 linuxty 的帖子

回复 #11 ttcn_cu 的帖子

回复 #15 orangetouch 的帖子

回复 #14 wxlfh 的帖子

浏览过的版块