免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: kaize0409
打印 上一主题 下一主题

[文本处理] 正则表达式如何排除有两个连续字符的匹配? [复制链接]

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
11 [报告]
发表于 2014-03-06 08:33 |只看该作者
本帖最后由 jason680 于 2014-03-06 08:35 编辑

回复 10# rdcwayx

There is a simple way to do that in Perl

# perl -lape 's/{#.*?#}/+/g' file
1. +
2. +
3. +a#}
fdss+fdjsf+dfs
fdss+fdjsf+dfs
fdss+dfs
fdss+fdjsf+dfs
fdss+fdjsf+dfs
fdss+fdjsf+dfs

   

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
12 [报告]
发表于 2014-03-06 08:49 |只看该作者
jason680 发表于 2014-03-06 08:33
回复 10# rdcwayx

There is a simple way to do that in Perl


这个问号用的很到位。没有问号,就是贪婪(greedy)匹配, 用了问号,就是懒惰(lazy)匹配或者非贪婪匹配。

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
13 [报告]
发表于 2014-03-06 12:43 |只看该作者
本帖最后由 Herowinter 于 2014-03-06 12:44 编辑

@kaize0409@jason680@rdcwayx
如果你要一个正则实现懒惰匹配,你可以参考版主和Jason的perl代码;
如果你非要在awk中实现,你可以参考下面的代码,不过这种做法扩展
性不是很好,仅仅针对你这个问题。
  1. awk '{s="";while((start=match($0,/{#/))>0){end=match($0,/#}/);if(end>start){s=s""substr($0,1,start-1)"+";$0=substr($0,end+2)}else break};print s$0}' i

  2. +
  3. +
  4. +a#}
  5. fdss+fdjsf+dfs
  6. fdss+fdjsf+dfs
  7. fdss+dfs
  8. fdss+fdjsf+dfs
  9. fdss+fdjsf+dfs
  10. fdss+fdjsf+dfs
  11. fff{#
  12. ggg#}
  13. hhhrrrr
复制代码
  1. cat i
  2. {#a#a#}
  3. {#a}a#}
  4. {#a#}a#}
  5. fdss{#sdjas#}fdjsf{#dsfjs#}dfs
  6. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  7. fdss{#sdjas#fdjsf#dsfjs#}dfs
  8. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  9. fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
  10. fdss{#sdjas#}fdjsf{#dsfjs#}dfs
  11. fff{#
  12. ggg#}
  13. hhhrrrr
复制代码

论坛徽章:
2
水瓶座
日期:2014-02-28 14:20:09辰龙
日期:2014-06-16 13:18:51
14 [报告]
发表于 2014-03-06 18:55 |只看该作者
本帖最后由 rogantianwz 于 2014-03-06 18:56 编辑

*? 这种忽略优先量词的用法在很多地方都不支持,但我估计perl、java、php什么的应该是支持的
因为我在LZ的另外一个帖子里,他用的是awk,我测了一下,貌似不支持*?

论坛徽章:
0
15 [报告]
发表于 2017-05-26 08:14 |只看该作者
  1. #!/bin/bash
  2. while read line
  3. do
  4.         echo `echo $line|tr  "^[#{}]"  "\n"|awk 'BEGIN{RS="[\n]+";ORS=" "}{print $0}'|sed 's/+$/\n/'`
  5. done
复制代码

cat x.txt
1. {#a#a#}
2. {#a}a#}
3. {#a#}a#}
fdss{#sdjas#}fdjsf{#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#fdjsf#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#}fdjsf{#dsfjs#}dfs

运行:bash x.sh < x.txt
1. a a
2. a a
3. a a
fdss sdjas fdjsf dsfjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sdjas fdjsf dsfjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sdjas fdjsf dsfjs dfs

论坛徽章:
0
16 [报告]
发表于 2017-05-26 08:15 |只看该作者
  1. #!/bin/bash
  2. while read line
  3. do
  4.         echo `echo $line|tr  "^[#{}]"  "\n"|awk 'BEGIN{RS="[\n]+";ORS=" "}{print $0}'|sed 's/+$/\n/'`
  5. done
复制代码

cat x.txt
1. {#a#a#}
2. {#a}a#}
3. {#a#}a#}
fdss{#sdjas#}fdjsf{#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#fdjsf#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#}fdjsf{#dsfjs#}dfs

运行:bash x.sh < x.txt
1. a a
2. a a
3. a a
fdss sdjas fdjsf dsfjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sdjas fdjsf dsfjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sd jas fdjsf ds fjs dfs
fdss sdjas fdjsf dsfjs dfs

论坛徽章:
0
17 [报告]
发表于 2017-05-26 08:37 |只看该作者
  1. #!/bin/bash
  2. while read line
  3. do
  4.         echo `echo $line|tr  "[ #{}]"  "\n"|awk 'BEGIN{RS="[\n]+";ORS="+"}{print $0}'|sed 's/+$/\n/'`
  5. done
复制代码


cat x.txt
1. {#a#a#}
2. {#a}a#}
3. {#a#}a#}
fdss{#sdjas#}fdjsf{#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#fdjsf#dsfjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sd#jas#}fdjsf{#ds#fjs#}dfs
fdss{#sdjas#}fdjsf{#dsfjs#}dfs
------------------------------------------------------
sh x.sh < x.txt
1.+a+a
2.+a+a
3.+a+a
fdss+sdjas+fdjsf+dsfjs+dfs
fdss+sd+jas+fdjsf+ds+fjs+dfs
fdss+sdjas+fdjsf+dsfjs+dfs
fdss+sd+jas+fdjsf+ds+fjs+dfs
fdss+sd+jas+fdjsf+ds+fjs+dfs
fdss+sdjas+fdjsf+dsfjs+dfs
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP