免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 25468 | 回复: 6
打印 上一主题 下一主题

已经解决.结贴 脚本 Perl - 正则匹配过程 (分组 组值) [复制链接]

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
1 [报告]
发表于 2015-09-26 16:29 |显示全部楼层
本帖最后由 MMMIX 于 2015-09-26 16:29 编辑

回复 2# sunzhiguolu


平常使用正则,了解其语义就足够了,也就是知道什么表达式会匹配到什么结果。

若真想深入研究正则的实现,那就去找本好点的编译原理的书,一般在讲词法解析的时候都会讲到正则的实现,通常是基于 DFA 或 NFA。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-09-26 17:34 |显示全部楼层
本帖最后由 MMMIX 于 2015-09-26 17:49 编辑

回复 4# sunzhiguolu


    正则的匹配一般采用贪心算法,也就是匹配尽量长的字符串,但是当这种策略导致匹配失败的时候会回退一个字符再次尝试,最终或者匹配成功,或者退无可退导致匹配最终失败。可以看下 perlref,里面有不少的介绍,也有些例子。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
3 [报告]
发表于 2015-09-26 17:55 |显示全部楼层
回复 6# sunzhiguolu


    别人用几十页文字,甚至是几百页的书才能完全说明白的问题,我反正是没能耐几句话就说明白;我劝你也不要指望随便看点介绍或别人的讲解就能完全明白正则的实现,这不现实。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
4 [报告]
发表于 2015-09-26 21:40 |显示全部楼层
回复 9# 104359176


    你这正则的语义和楼主的完全是两回事。

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
5 [报告]
发表于 2015-09-26 22:15 |显示全部楼层
回复 15# sunzhiguolu


    说了这么半天,你到底有什么问题?不理解为什么能匹配成功?不明白为什么各个 capture group 为什么是那么个值?还是说其他问题?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
6 [报告]
发表于 2015-09-26 23:13 |显示全部楼层
本帖最后由 MMMIX 于 2015-09-27 12:05 编辑

回复 19# sunzhiguolu


    实在看不明白你都在说啥,我还是直接描述下这个正则的匹配过程吧。

把正则表达式 \b(([0-9])\2)+4 拆成三部分,分别为 re1 = \b, re2 = (([0-9])\2), re3 = 4, 整个正则记为 re. 那么 re 匹配字符串 "11223344" 的过程如下:

1. 先匹配 re1 = \b

由于 \b 是 word 边界,可以匹配到字符串开始;所以匹配成功,匹配结束的位置为字符串开头。

2. 然后匹配 re2 = (([0-9]\2)+,匹配开始的位置为 re1 匹配结束的位置,也即字符串的开头

2.1 (([0-9])\2) 匹配 "11.." 成功,此时 $1 = "11", $2 = 1;

2.2 由于有 +,所以继续匹配 (([0-9])\2),直到无法继续为止;

2.3 $1 和 $2 的值依次为 “22”, “2”(第二次),“33”,“3”(第三次),“44”,“4”(第四次);

2.4 此时已到字符串结尾,无法继续,re2 匹配成功,匹配结束位置为字符串结尾

3. 然后匹配 re3 = 4,匹配开始位置为 re2 匹配结束的位置,也即字符串的结尾

3.1 re3 匹配失败;

3.2 匹配位置回退一个字符,检查在此位置匹配 re2是否能成功;若失败,继续回退;

3.3 匹配位置回退两个字符之后,re2 可以匹配成功;此时匹配位置在 3 和 4 之间,$1 = "33", $2 = "3";

4. 重新匹配 re3 = 4,匹配开始位置在 3 和 4 之间,匹配成功;

5. 整个正则 re 匹配成功。

注意,虽然整体上 (([0-9])\2)+ 会匹配到 "112233",但是由于 + 相当于一个循环,在每次循环中,(([0-9])\2) 匹配到的内容都是不一样的,从而每次循环中 $1 和 $2 的值也都不一样,而最终的 $1 和 $2 的值是其循环过程中最后一次的值。

评分

参与人数 1信誉积分 +10 收起 理由
sunzhiguolu + 10 很给力! 我懂了, 谢谢您!

查看全部评分

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
7 [报告]
发表于 2015-09-27 12:02 |显示全部楼层
回复 24# sunzhiguolu


    再把我描述的过程看一遍,还有疑问的话就再看一遍。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP