免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3247 | 回复: 3
打印 上一主题 下一主题

[文本处理] sed 获取第一个匹配的段落 [复制链接]

论坛徽章:
1
程序设计版块每日发帖之星
日期:2016-06-29 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2019-12-17 16:24 |只看该作者 |倒序浏览
本帖最后由 wdfwdf2727 于 2019-12-17 16:37 编辑

aaaaa1=
  (aaaaa=
  
)
aaaaa=

  (cccccc=
  
  (bbbbbb=
  )
)
aaaaa=
  (cccccc=
  
  (bbbbbb=
  
  (dddddd=
  )
)
数据结构如上
1、每一个段落的开头为字母(有大小写之分),比如 aaaaa1=  就是段落的开头
2、段落内的内容都是非字母开头的,比如 ( 或空格开头,并且存在空行。
3、段落的开头有可能重复,对于重复的开头,只需要取第一个匹配的段落。

现在需要把段落之间的取出来,就是把以 匹配字母开头到下一个匹配字幕开头,比如查找 ^aaaaa1  匹配到如下
aaaaa1=
  (aaaaa=
  
)
求大神帮忙



论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
2 [报告]
发表于 2019-12-24 22:35 |只看该作者
本帖最后由 cjaizss 于 2019-12-25 12:07 编辑
  1. #!/bin/bash
  2. sed -nr '
  3. /\<'$2'\>/!d
  4. x
  5. s/.*/\n/
  6. x
  7. s/.*(\<'$2'\>)/\n\1/

  8. :newline
  9. H
  10. x
  11. :seg
  12. s/(\n)([^()]*)([^\n]*)$/\2\1\3/
  13. /(.*)(\n)(\()([^\n]*)$/ {
  14.         s//1\1\3\2\4/
  15.         tseg
  16. }
  17. /^1(.*)(\n)(\))([^\n]*)$/ {
  18.         s//\1\3\2\4/
  19.         /^\n/ {
  20.                 s/\n+(.*)\n[^\n]*$/\1/p
  21.                 q
  22.         }
  23.         tseg
  24. }
  25. /^\n(.*)\n\)([^\n]*)$/ {
  26.         s//\1/p
  27.         q
  28. }
  29. s/\n$//
  30. x
  31. n
  32. s/^/\n/
  33. tnewline
  34. ' $1
复制代码

./test.sh urfile aaaaa1
测试中发现某种情况下会加一个空行,属于小BUG,因为空格空行不影响实际内容,但是现在想不起例子。测试如下:

  1. user@ubuntu:/tmp$ cat testfile
  2. abc=(  def   = (ghijk  =  (lmn opq))
  3. ) ABC=(   DE =(FG= (HIJK =
  4. (OPQ RST)
  5. )
  6. )) aBc = (dEF = (
  7. ghI jK))
  8. user@ubuntu:/tmp$ ./test.sh testfile abc
  9. abc=(  def   = (ghijk  =  (lmn opq))
  10. )
  11. user@ubuntu:/tmp$ ./test.sh testfile ABC
  12. ABC=(   DE =(FG= (HIJK =
  13. (OPQ RST)
  14. )
  15. ))
  16. user@ubuntu:/tmp$ ./test.sh testfile dEF
  17. dEF = (
  18. ghI jK)
  19. user@ubuntu:/tmp$ ./test.sh testfile aBc
  20. aBc = (dEF = (
  21. ghI jK))

复制代码



论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
3 [报告]
发表于 2019-12-25 10:56 |只看该作者

  1. sed '/^aaaaa1=/,/^[a-zA-Z]/{0,//b;//!b;//Q};d' a.txt
复制代码

论坛徽章:
0
4 [报告]
发表于 2020-02-27 17:49 |只看该作者
  1. sed -n '/^aaaaa1=/{:a;p;n;/^[a-zA-Z]/Q;ba}' a.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP