免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9237 | 回复: 17
打印 上一主题 下一主题

[文本处理] 正则表达式如何排除有两个连续字符的匹配? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-03-05 19:32 |只看该作者 |倒序浏览
例如匹配{#.*#}这样的字符串,但.*中间的内容又不能包含#}这个序列,这样的要求在正则表达式中如何表示?

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
2 [报告]
发表于 2014-03-05 21:21 |只看该作者
把.*替换成 [^#]
回复 1# kaize0409


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
3 [报告]
发表于 2014-03-05 22:59 |只看该作者
表示没看懂~

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
4 [报告]
发表于 2014-03-05 23:37 来自手机 |只看该作者
\{#.*?#\}

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2014-03-05 23:40 |只看该作者
给个实例比你这样抽象的说更有意义~

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
6 [报告]
发表于 2014-03-06 00:09 |只看该作者
本帖最后由 Herowinter 于 2014-03-06 00:10 编辑

回复 3# yestreenstars
我知道楼主的意思,可以参考他另一个帖子,是为了
实现在awk中的懒惰匹配。他要的就是{#与#}之间
的字符串只要不连续刚好是#}就可以了,就是相当于
在开始标记{#与结束标记#}之间不能再有结束标记。
他就想要awk中的一个正则能匹配下面的1、2,
但不能匹配3

1. {#a#a#}
2. {#a}a#}
3. {#a#}a#}
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2014-03-06 00:30 |只看该作者
回复 6# Herowinter

这种情况用正则貌似不好搞,直接用分隔符判断还好些(他貌似说过不用正则也可以,只要能完成任务即可):
  1. $ cat i
  2. {#a#a#}
  3. {#a}a#}
  4. {#a#}a#}
  5. $ awk -F '#}' 'NF<3' i
  6. {#a#a#}
  7. {#a}a#}
复制代码

论坛徽章:
6
处女座
日期:2014-04-02 16:07:17酉鸡
日期:2014-04-14 10:09:22子鼠
日期:2014-04-17 11:57:30辰龙
日期:2014-09-01 17:14:08戌狗
日期:2014-10-28 12:25:54未羊
日期:2014-11-14 11:31:58
8 [报告]
发表于 2014-03-06 00:49 |只看该作者
  1. egrep -v "^{#.*#}.*#}$" o
复制代码
这样如何

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2014-03-06 06:43 来自手机 |只看该作者
\{#.*?#\}

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
10 [报告]
发表于 2014-03-06 08:25 |只看该作者
我收集了你两个帖子里的所有的例子:
  1. 1. {#a#a#}
  2. 2. {#a}a#}
  3. 3. {#a#}a#}
  4. fdss{#sdjas#}fdjsf{#dsfjs#}dfs
  5. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  6. fdss{#sdjas#fdjsf#dsfjs#}dfs
  7. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  8. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  9. fdss{#sdjas#}fdjsf{#dsfjs#}dfs
复制代码
正则的用法是:
  1. {#((?!#}).)*#}
复制代码
演示在这里:http://regex101.com/r/mD3dO2

因为 awk/sed 里不支持零宽断言。 grep 虽然支持,但没有替换功能,所以你可以考虑用perl
  1. $ perl -i.bak -pe 's/{#((?!#}).)*#}/+/g' file

  2. $ cat file
  3. 1. +
  4. 2. +
  5. 3. +a#}
  6. fdss+fdjsf+dfs
  7. fdss+fdjsf+dfs
  8. fdss+dfs
  9. fdss+fdjsf+dfs
  10. fdss+fdjsf+dfs
  11. fdss+fdjsf+dfs

复制代码
这个perl命令运行后, 你可以比较一下新文件和备份文件的区别,看看是否达到了你要的目的。
  1. diff file file.bak
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP