免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4358 | 回复: 9

[文本处理] 求助!sed 提取 xml 标签体 的问题 [复制链接]

论坛徽章:
2
2015亚冠之德黑兰石油
日期:2015-05-26 13:52:28程序设计版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2015-06-06 14:02 |显示全部楼层
1、获取 xml 中所有的 Temp 标签,(避免使用 xmllint )

  1. <a></a>
  2. <Temp
  3.        path="C:\"         docBase="/null/404"
  4. reloadable="true"/>
  5. <Test name="none">
  6. <!-- -->
  7. </Test>
  8. <Temp    docBase="/null/404"
  9.        reloadable="true" path="E:\Windows" />
  10. <b></b>
复制代码
获得


  1. <Temp
  2.        path="C:\"         docBase="/null/404"
  3. reloadable="true"/>

  4. <Temp    docBase="/null/404"
  5.        reloadable="true" path="E:\Windows" />

复制代码
使用
  1. sed -n '/<Temp/,/\/>/p'
复制代码
会将中间的
  1. <Test name="none">
  2. <!-- -->
  3. </Test>
复制代码
包含进去。

2、同样提取 xml 标签体

  1. <a></a>
  2. <Temp
  3.        path="C:\"         docBase="/null/404"
  4. reloadable="true"/>

  5. <Test name="none" />

  6. <Temp    docBase="/null/404"
  7.        reloadable="true" >String</Temp>
  8. <b></b>
复制代码
得到


  1. <Temp
  2.        path="C:\"         docBase="/null/404"
  3. reloadable="true"/>

  4. <Temp    docBase="/null/404"
  5.        reloadable="true" >String</Temp>

复制代码
存在标签是否封闭的差异

论坛徽章:
0
发表于 2015-06-06 14:18 |显示全部楼层
  1. awk  'BEGIN{RS=ORS=">"}$1~/Temp/'
复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
发表于 2015-06-06 14:30 |显示全部楼层
  1. grep -Poz '^\s*<Temp[\s\S]*?/>|^\s*<Temp[\s\S]*?</Temp>' file
复制代码
PS: 如果提示 grep: The -P and -z options cannot be combined ,确保 grep 版本在 2.6.x or higher

论坛徽章:
2
2015亚冠之德黑兰石油
日期:2015-05-26 13:52:28程序设计版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2015-06-06 15:08 |显示全部楼层
回复 2# liuyu85


    “~” 约等于 对 awk 版本有要求吗?

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
发表于 2015-06-06 16:09 |显示全部楼层
本帖最后由 songyc_2015 于 2015-06-06 16:27 编辑

回复 1# raps
  1. sed -n '/<Temp/{:1;$!N;/>/!b1;p}' file
  2. sed -n '/<Temp/{:1;//h;n;H;/>/!b1;g;p}' file
复制代码

论坛徽章:
8
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015小元宵徽章
日期:2015-03-06 15:58:18每日论坛发贴之星
日期:2015-06-08 22:20:00每日论坛发贴之星
日期:2015-06-08 22:20:00操作系统版块每日发帖之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2015-11-09 06:20:00数据库技术版块每日发帖之星
日期:2016-02-22 06:20:0015-16赛季CBA联赛之上海
日期:2017-01-01 23:58:53
发表于 2015-06-08 00:46 |显示全部楼层
本帖最后由 zl624867243 于 2015-06-08 00:49 编辑

奇怪了
[root@QD1 shell_scripts]# cat file
<a></a>
<Temp
       path="C:\"         docBase="/null/404"
reloadable="true"/>
<Test name="none">
<!-- -->
</Test>
<Temp    docBase="/null/404"
       reloadable="true" path="E:\Windows" />
<b></b>

[root@QD1 shell_scripts]# sed -n '/<Temp/,/\/>/p' file
<Temp
       path="C:\"         docBase="/null/404"
reloadable="true"/>
<Temp    docBase="/null/404"
       reloadable="true" path="E:\Windows" />

论坛徽章:
2
2015亚冠之德黑兰石油
日期:2015-05-26 13:52:28程序设计版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2015-06-08 10:48 |显示全部楼层
回复 5# songyc_2015
  1.    sed -n '/<Temp/{:1;//h;n;H;/>/!b1;g;p}' file
复制代码
有问题,有的时候会包含多余的标签。

论坛徽章:
2
2015亚冠之德黑兰石油
日期:2015-05-26 13:52:28程序设计版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2015-06-08 10:50 |显示全部楼层
回复 2# liuyu85


    awk  'BEGIN{RS=ORS=">"}$1~/Temp/'
    会落下部分标签

论坛徽章:
0
发表于 2015-06-08 13:13 |显示全部楼层
回复 8# raps


    你提供的两个测试文本+我回复的代码,得到的结果没有丢掉你提问时需要的任何标签。
另外大体思路给你了,就算结果有点小瑕疵,请自己查询和解决,这样更有助你思考和学习。

论坛徽章:
2
2015亚冠之德黑兰石油
日期:2015-05-26 13:52:28程序设计版块每日发帖之星
日期:2015-06-09 22:20:00
发表于 2015-06-08 18:54 |显示全部楼层
回复 9# liuyu85


    感谢指导。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP