1 234 5 / 5 页下一页

网页抽取正则问题 [复制链接]

黑色阳光_cu

白手起家

论坛徽章:: 0

21楼 [报告]

发表于 2010-12-21 12:51 |只看该作者

本帖最后由黑色阳光_cu 于 2010-12-21 12:53 编辑

my $html = "<table><tr><td>aa</td><td>bb</td></tr></table>标记1<table><tr><td>cc</td><td>dd</td></tr></table>标记2<table><tr><td>ee</td><td>ff</td></tr></table>";
my @ar = $html =~ m{\G(?(?=^).*?标记1).*?(<td>\w+</td>)(?=.*?标记2)}xg;
warn "@ar";

复制代码

哥不喜欢 (??{})

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

x9x9

小富即安

论坛徽章:: 0

22楼 [报告]

发表于 2010-12-21 13:39 |只看该作者

谁再给解释下11楼的写法，google了半天没有答案。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamlimeng

富足长乐

论坛徽章:: 0

23楼 [报告]

发表于 2010-12-21 15:02 |只看该作者

回复 21# 黑色阳光_cu

谢谢黑色阳光，这个正则很强大，就是我想要的正则。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

24楼 [报告]

发表于 2010-12-22 09:11 |只看该作者

11楼的原理是巧妙的让正则表达式失败，并不断重新尝试。
当正则表达式引擎在字符串中找到符合下面这段正则规制的内容后

/标记1.*?(<td>\w+<\/td>).*?标记2

复制代码

接下来就是把$1内容存入数组，然后这时候让正则表达式匹配失败。
那么正则表达式引擎就会进行新的尝试。
这样就能匹配到所有的符合条件的内容。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

25楼 [报告]

发表于 2010-12-22 09:13 |只看该作者

不过11楼的代码写得很隐晦。下面的正则，同样的道理。至于11楼用上/g，这个完全没有必要。

$html =~ /标记1.*?(<td>\w+<\/td>).*?标记2(?{print "$1\n"})(?!)/;
$html =~ /标记1.*?(<td>\w+<\/td>).*?标记2(?{print "$1\n"})\1/;

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

26楼 [报告]

发表于 2010-12-22 09:42 |只看该作者

不过11楼的代码写得很隐晦。下面的正则，同样的道理。至于11楼用上/g，这个完全没有必要。
toniz 发表于 2010-12-22 09:13

都没有哥的强大

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

27楼 [报告]

发表于 2010-12-22 09:51 |只看该作者

能够写出11楼那样的正则，证明对正则表达式内部工作原理很了解。他那个正则的效率要比你的高太多。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

28楼 [报告]

发表于 2010-12-22 09:53 |只看该作者

能够写出11楼那样的正则，证明对正则表达式内部工作原理很了解。他那个正则的效率要比你的高太多。
toniz 发表于 2010-12-22 09:51

哥不用(?{...})

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

toniz

富足长乐

论坛徽章:: 0

29楼 [报告]

发表于 2010-12-22 09:57 |只看该作者

只讨论正则，不考虑实际应用。如果实际应该的话，我宁可去用楼主的两个正则来实现。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

黑色阳光_cu

白手起家

论坛徽章:: 0

30楼 [报告]

发表于 2010-12-22 10:03 |只看该作者

本帖最后由黑色阳光_cu 于 2010-12-22 10:05 编辑

#!/bin/env perl
# t2.pl
use strict;
use warnings;
foreach (1 .. 200000)
{
my $html = "<table><tr><td>aa</td><td>bb< /td></tr></table>标记1<table><tr><td>cc</td><td>dd< /td></tr></table>标记2<table><tr><td>ee</td><td>ff</td></tr></table>";
#my @ar = $html =~ m{\G(?(?=^).*?标记1).*?(<td>\w+</td>)(?=.*?标记2)}xg;
my @a;
$html =~ /标记1.*?(<td>\w+<\/td>).*?标记2(??{push @a,$1})/g;
}

复制代码

$ time perl t2.pl

real 0m3.778s
user 0m0.015s
sys 0m0.015s

-------------------------------------------------- 我是华丽的分界线 -----------------------------------------------------------

#!/bin/env perl
# t.pl
use strict;
use warnings;
foreach (1 .. 200000)
{
my $html = "<table><tr><td>aa</td><td>bb< /td></tr></table>标记1<table><tr><td>cc</td><td>dd< /td></tr></table>标记2<table><tr><td>ee</td><td>ff</td></tr></table>";
my @ar = $html =~ m{\G(?(?=^).*?标记1).*?(<td>\w+</td>)(?=.*?标记2)}xg;
#my @a;
#$html =~ /标记1.*?(<td>\w+<\/td>).*?标记2(??{push @a,$1})/g;
}

复制代码

$ time perl t.pl

real 0m1.271s
user 0m0.031s
sys 0m0.015s

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 234 5 / 5 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Perl › 网页抽取正则问题

网页抽取正则问题 [复制链接]

浏览过的版块