免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1259 | 回复: 4
打印 上一主题 下一主题

[文本处理] sed 关于子字符串模块的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-08-02 17:33 |只看该作者 |倒序浏览
$cat aaa.txt
1234567890

$sed '{
>:start
>s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
>t start
>}'
1,234,567,890

不是太理解下面这一行,转义符被我拿掉了:

s/(.*[0-9])([0-9]{3})/\1,\2/

尤其是这一段:
(.*[0-9])

想问一下让aaa.txt内容变成
1234567,890
时,该命令依然能够得到相同的结果,为什么?

在7和8之间已经有一个逗号,为什么还是能被
(.*[0-9])
匹配?

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-08-02 17:44 |只看该作者
本帖最后由 MMMIX 于 2015-08-02 17:45 编辑

回复 1# daodaoyuXX


    给 s/// 加个 p,看看每次循环的时候 pattern space 都是啥。BTW,regexp .* 的匹配是 greedy matching.

论坛徽章:
0
3 [报告]
发表于 2015-08-02 18:01 |只看该作者
有道理哈回复 2# MMMIX


   

论坛徽章:
0
4 [报告]
发表于 2015-08-02 20:41 |只看该作者
试过了,跟预想的一样

但是
1234567,890
是怎么被解析的?

回复 2# MMMIX


   

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
5 [报告]
发表于 2015-08-02 21:27 |只看该作者
回复 4# daodaoyuXX


    正则的 * 在匹配的时候采用 greedy matching,为了整个正则的匹配成功,则在某些地方需要回朔。例如用 .*[0-9] 匹配 12345,最开始匹配 .* 的时候会匹配到 12345,可是这时候就没办法匹配 [0-9] 了,于是回朔一个字符,.* 匹配 1234,而 [0-9] 则匹配 5。

另外,你也可以把有疑问的那个正则每部分都匹配了什么打印出来看看:

  1. $ echo 1234567,890 | sed -n 's/\(.*\)\([0-9]\)\([0-9]\{3\}\)\(.*\)/(\1)(\2)(\3)(\4)/p'
  2. (123)(4)(567)(,890)
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP