Chinaunix

标题: 求助!sed 提取 xml 标签体 的问题 [打印本页]

作者: raps    时间: 2015-06-06 14:02
标题: 求助!sed 提取 xml 标签体 的问题
1、获取 xml 中所有的 Temp 标签,(避免使用 xmllint )

  1. <a></a>
  2. <Temp
  3.        path="C:\"         docBase="/null/404"
  4. reloadable="true"/>
  5. <Test name="none">
  6. <!-- -->
  7. </Test>
  8. <Temp    docBase="/null/404"
  9.        reloadable="true" path="E:\Windows" />
  10. <b></b>
复制代码
获得


  1. <Temp
  2.        path="C:\"         docBase="/null/404"
  3. reloadable="true"/>

  4. <Temp    docBase="/null/404"
  5.        reloadable="true" path="E:\Windows" />

复制代码
使用
  1. sed -n '/<Temp/,/\/>/p'
复制代码
会将中间的
  1. <Test name="none">
  2. <!-- -->
  3. </Test>
复制代码
包含进去。

2、同样提取 xml 标签体

  1. <a></a>
  2. <Temp
  3.        path="C:\"         docBase="/null/404"
  4. reloadable="true"/>

  5. <Test name="none" />

  6. <Temp    docBase="/null/404"
  7.        reloadable="true" >String</Temp>
  8. <b></b>
复制代码
得到


  1. <Temp
  2.        path="C:\"         docBase="/null/404"
  3. reloadable="true"/>

  4. <Temp    docBase="/null/404"
  5.        reloadable="true" >String</Temp>

复制代码
存在标签是否封闭的差异
作者: liuyu85    时间: 2015-06-06 14:18
  1. awk  'BEGIN{RS=ORS=">"}$1~/Temp/'
复制代码

作者: reyleon    时间: 2015-06-06 14:30
  1. grep -Poz '^\s*<Temp[\s\S]*?/>|^\s*<Temp[\s\S]*?</Temp>' file
复制代码
PS: 如果提示 grep: The -P and -z options cannot be combined ,确保 grep 版本在 2.6.x or higher
作者: raps    时间: 2015-06-06 15:08
回复 2# liuyu85


    “~” 约等于 对 awk 版本有要求吗?
作者: songyc_2015    时间: 2015-06-06 16:09
本帖最后由 songyc_2015 于 2015-06-06 16:27 编辑

回复 1# raps
  1. sed -n '/<Temp/{:1;$!N;/>/!b1;p}' file
  2. sed -n '/<Temp/{:1;//h;n;H;/>/!b1;g;p}' file
复制代码

作者: zl624867243    时间: 2015-06-08 00:46
本帖最后由 zl624867243 于 2015-06-08 00:49 编辑

奇怪了
[root@QD1 shell_scripts]# cat file
<a></a>
<Temp
       path="C:\"         docBase="/null/404"
reloadable="true"/>
<Test name="none">
<!-- -->
</Test>
<Temp    docBase="/null/404"
       reloadable="true" path="E:\Windows" />
<b></b>

[root@QD1 shell_scripts]# sed -n '/<Temp/,/\/>/p' file
<Temp
       path="C:\"         docBase="/null/404"
reloadable="true"/>
<Temp    docBase="/null/404"
       reloadable="true" path="E:\Windows" />

作者: raps    时间: 2015-06-08 10:48
回复 5# songyc_2015
  1.    sed -n '/<Temp/{:1;//h;n;H;/>/!b1;g;p}' file
复制代码
有问题,有的时候会包含多余的标签。
作者: raps    时间: 2015-06-08 10:50
回复 2# liuyu85


    awk  'BEGIN{RS=ORS=">"}$1~/Temp/'
    会落下部分标签
作者: liuyu85    时间: 2015-06-08 13:13
回复 8# raps


    你提供的两个测试文本+我回复的代码,得到的结果没有丢掉你提问时需要的任何标签。
另外大体思路给你了,就算结果有点小瑕疵,请自己查询和解决,这样更有助你思考和学习。
作者: raps    时间: 2015-06-08 18:54
回复 9# liuyu85


    感谢指导。




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2