免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5024 | 回复: 10
打印 上一主题 下一主题

[文本处理] 正则贪婪匹配的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-02-07 17:54 |只看该作者 |倒序浏览
本帖最后由 allen08pm 于 2014-02-07 17:55 编辑

echo "Copyright 2003 and guess what?" | sed -r 's/^.*([0-9]+)/\1/g'
运行结果是 3 and guess what?   

为什么不是3

Any answer will be appreciated



论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2014-02-07 19:11 |只看该作者
比较一下我这句和你的有什么差别:
  1. echo "Copyright 2003 and guess what?" | sed -r 's/^.*([0-9]+).*/\1/g'
复制代码

论坛徽章:
0
3 [报告]
发表于 2014-02-08 09:16 |只看该作者
回复 2# yestreenstars

这个前后两个贪婪匹配  不怎么明白  大神能否解释下


   

论坛徽章:
6
摩羯座
日期:2013-12-27 09:45:04技术图书徽章
日期:2014-01-27 12:40:06辰龙
日期:2014-02-28 15:12:52巳蛇
日期:2014-03-21 17:06:27未羊
日期:2014-04-15 20:12:41黑曼巴
日期:2016-08-02 11:00:06
4 [报告]
发表于 2014-02-08 13:21 |只看该作者
本帖最后由 laliheyi 于 2014-02-08 13:22 编辑

回复 1# allen08pm
  1. echo "Copyright 2003 and guess what?" | sed -r 's/^.*([0-9]+)/\1/g'
复制代码
sed命令s替换匹配的字符 ^.*([0-9]+) 会匹配 "Copyright 2003 and guess what?"中的Copyright 2003(\1将为3)所以将之替换为3 ,与后面字符(and guess what?)组合结果就是所见到的3 and guess what?

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2014-02-08 14:53 |只看该作者
回复 3# allen08pm

Copyright 2003 and guess what?
黄色区域相当于.*
红色区域相当于([0-9]+)
你只对黄色和红色区域进行处理,而没对蓝色区域进行处理,所以最后的结果就是红色区域+蓝色区域,这样说你能理解吗?
   

论坛徽章:
769
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
6 [报告]
发表于 2014-02-08 16:16 |只看该作者
回复 5# yestreenstars
楼主有疑问的应该是对于这段文本 Copyright 2003 and guess what?
正则 .*([0-9]+).*
为什么前一个.*匹配的是Copyright 200
后一个.*匹配的是 and guess what?

如果不是贪婪匹配的话,
理论上也可以前一个.*匹配Copyright
后一个.*匹配003 and guess what?
等等


   

论坛徽章:
6
摩羯座
日期:2013-12-27 09:45:04技术图书徽章
日期:2014-01-27 12:40:06辰龙
日期:2014-02-28 15:12:52巳蛇
日期:2014-03-21 17:06:27未羊
日期:2014-04-15 20:12:41黑曼巴
日期:2016-08-02 11:00:06
7 [报告]
发表于 2014-02-08 16:48 |只看该作者
回复 6# Herowinter


    我的理解是 贪婪匹配尽可能多的匹配,从左到右进行,第一个.*贪婪匹配到Copyright 200,([0-9]+)匹配到3 ...

论坛徽章:
2
水瓶座
日期:2014-02-28 14:20:09辰龙
日期:2014-06-16 13:18:51
8 [报告]
发表于 2014-02-08 16:48 |只看该作者
无语了,这根本就不关乎什么“贪婪匹配”的事,2楼是正解

论坛徽章:
3
酉鸡
日期:2014-04-23 17:17:56丑牛
日期:2014-05-08 11:41:302015亚冠之德黑兰石油
日期:2015-08-03 11:14:27
9 [报告]
发表于 2014-02-09 11:32 |只看该作者
学习了,呵呵!

论坛徽章:
29
程序设计版块每日发帖之星
日期:2016-02-29 06:20:0015-16赛季CBA联赛之天津
日期:2016-08-10 10:33:1115-16赛季CBA联赛之深圳
日期:2016-08-17 15:07:2015-16赛季CBA联赛之佛山
日期:2016-11-07 11:33:5015-16赛季CBA联赛之广夏
日期:2016-11-15 09:13:31CU十四周年纪念徽章
日期:2016-11-24 14:12:25极客徽章
日期:2016-12-07 14:03:4015-16赛季CBA联赛之深圳
日期:2016-12-07 17:15:2715-16赛季CBA联赛之北京
日期:2016-12-22 09:30:0115-16赛季CBA联赛之深圳
日期:2016-12-22 10:49:2115-16赛季CBA联赛之山西
日期:2017-02-10 09:05:3215-16赛季CBA联赛之同曦
日期:2017-02-27 14:19:08
10 [报告]
发表于 2014-02-09 12:11 |只看该作者
只匹配到最后一个数字之前的所有,最后一个数字之后的没在你的匹配范围内,后面加.*可以
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP