免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 5636 | 回复: 22
上一主题 下一主题

[文本处理] 正则表达式 [0-9] v.s. [0--9] [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-11-28 10:11 |只看该作者 |倒序浏览
正则表达式【0-9】匹配从 0 到 9 中的任意一个数字字符,但是我看到也有【0--9】的写法,二者匹配出来的结果不一样,那么,【0--9】代表什么意思呢?谢谢!

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2013-11-28 10:13 |只看该作者
有两种可能:
1.你看错了
2.他写错了

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
3 [报告]
发表于 2013-11-28 10:21 |只看该作者
  1. echo "1234"|awk '$0~/[0-9]/'
  2. 1234

  3. echo "1234"|awk '$0~/[0--9]/'
  4. awk: fatal: Invalid range end: /[0--9]/
复制代码
回复 1# listenxu

估计是个其他字符x,表示0或x或9.


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2013-11-28 10:35 |只看该作者
回复 1# listenxu

refer to 2L that yestreenstars said


it will be issue if you try the pattern with [0--9]

$ echo a1b2c3 | sed 's/[0-9]/x/g'
axbxcx

$ echo a1b2c3 | sed 's/[0--9]/x/g'
sed: -e expression #1, char 12: Invalid range end

$ echo 123 | grep "[0-9]"
123

$ echo a1b2c3 | grep "[0--9]"
grep: Invalid range end

$ echo a1b2c3 | awk -F"[0-9]" '{print NF}'
4

$ echo a1b2c3 | awk -F"[0--9]" '{print NF}'
awk: fatal: Invalid range end: /[0--9]/

when you use the pattern N to M, [N-M], the M must be greater than the N in ASCII code.
[0-9]  
  N = "0" = ASCII 0x30
  M = "9" = ASCII 0x39
the 0x39("9") is greater than 0x30("0"),  it's OK

[0--9]
  N = "0" = ASCII 0x30
  M = "-" = ASCII 0x2D
the 0x2D("-") isn't greater than 0x30("0"), it's will be issue


$ echo a1b2c3 | sed 's/[0-z]/x/g'
xxxxxx
   

论坛徽章:
0
5 [报告]
发表于 2013-11-28 17:20 |只看该作者
回复 4# jason680


    谢谢;我做的测试如下,用[0--9]并没有报错,但输出结果是有问题的;
test@ test-laptop:~/shell$ ls test*
test1.lock  test6666  test7777  test8888  test9999  test_logger
test@ test-laptop:~/shell$
test@ test-laptop:~/shell$
test@ test-laptop:~/shell$ find . -name "[t][a-z][a-z][a-z][0-9][0-9]*"
./test7777
./test6666
./test9999
./test8888
test@ test-laptop:~/shell$ find . -name "[t][a-z][a-z][a-z][0--9][0--9]*"
./test9999


另外,附加一个疑问,正则表达式不带双引号,含有[0--9]的命令可以造就执行,但是含有[0-9]的就报错了,但是如果find ls就不用双引号( find ~ -name ls 不会报错),这个双引号对正则表达式而言是必须的吗?

test@ test-laptop:~/shell$
  test@ test-laptop:~/shell$ find . -name [t][a-z][a-z][a-z][0--9][0--9]*
./test9999
test@ test-laptop:~/shell$ find . -name [t][a-z][a-z][a-z][0-9][0-9]*
find: paths must precede expression: test7777
Usage: find [-H] [-L] [-P] [-Olevel] [-D help|tree|search|stat|rates|opt|exec] [path...] [expression]

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
6 [报告]
发表于 2013-11-28 17:34 |只看该作者
本帖最后由 yestreenstars 于 2013-11-28 17:35 编辑

回复 5# listenxu
[0--9]在find里不会报错,我的猜想是这样的:find把[0--9]当成9来处理了。
至于为什么不加双引号会报错,那是因为你的表达式中包含了*,如果没有双引号,find就会把它当成是路径来处理,所以会报错。

   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
7 [报告]
发表于 2013-11-28 17:40 |只看该作者
本帖最后由 jason680 于 2013-11-28 18:22 编辑

回复 5# listenxu

$ ls
a1  a2  a3

# enable the xtrace option to see what's happen
$ set -x

$ find .  -name "a[0-9]*"
+ find . -name 'a[0-9]*'      <== shell explain function or variable for find command
./a1
./a3
./a2

$ find .  -name a[0-9]*
+ find . -name a1 a2 a3     <== shell explain function or variable for find command
find: paths must precede expression: a2
Usage: find [-H] [-L] [-P] [-Olevel] [-D help|tree|search|stat|rates|opt|exec] [path...] [expression]

$ find .  -name "a[0--9]"
+ find . -name 'a[0--9]'     <== shell explain function or variable for find command
Note: didn't output anything becaue it can find the file to match the pattern a[0--9]

$ set +x
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
8 [报告]
发表于 2013-11-28 17:54 |只看该作者
-name是不支持正则表达式的

根据你的要求,我改成这样:
  1. find . -regextype posix-egrep -regex '\./t[a-z]{3}[0-9]+'
复制代码

论坛徽章:
0
9 [报告]
发表于 2013-11-29 09:22 |只看该作者
回复 6# yestreenstars


    谢谢,从结果看来,确实是把0--9 当成9来处理的

论坛徽章:
0
10
发表于 2013-11-29 09:26
回复 7# jason680


    谢谢,打印出执行过程,确实清楚了很多;
    另外,根据楼上仁兄的说法和实际的运行结果,shell把0--9当成9来处理的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP