免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3382 | 回复: 8
打印 上一主题 下一主题

shell 查找XML中的节点问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-11-26 22:01 |只看该作者 |倒序浏览
5可用积分
如果有一个XML文件,这个XML文件的内容是一个很长的字符串(只有一行),问题是如何提取其中某个节点的值啊?这个节点在XML文件中可能有多个。例如:
<book><page>page1</page><page>page2</page></book>
如果我想提取所有page节点的值:
page1
page2
该如何写shell命令啊?

最佳答案

查看完整内容

xml有个特点....利用下awk 'BEGIN{FS=">";RS=""符号NF!~后面的内容得改(偶觉得你的节点内容里应该没这个无聊的符号就没想这么多了!)我大致测了下$ echo "ssspage1page2ssss" | awk 'BEGIN{FS="";RS="

论坛徽章:
0
2 [报告]
发表于 2008-11-26 22:01 |只看该作者
xml有个特点<xxx>....</xxx>利用下
awk 'BEGIN{FS=">";RS="</"}$NF{print $NF}' file

回4楼,可以匹配详细点
awk 'BEGIN{FS="<page>";RS="</"}$NF&&$NF!~/.*>.*/{print $NF}' file
#其中FS="<page>" 就是你的节点
#如果节点内容里有">"符号NF!~后面的内容得改(偶觉得你的节点内容里应该没这个无聊的符号就没想这么多了!)

我大致测了下
$ echo "<book>sss<page>page1</page><page>page2</page>ssss</book>" | awk 'BEGIN{FS="<page>";RS="</"}$NF&&$NF!~/.*>.*/{print $NF}'
page1
page2

[ 本帖最后由 galford433 于 2008-11-26 22:47 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2008-11-26 22:18 |只看该作者
cat urfile|grep -Eo "<page>[^<]+</page>"|sed -r 's,</?page>,,g'

论坛徽章:
0
4 [报告]
发表于 2008-11-26 22:30 |只看该作者
感谢楼上两位指点。对2楼的疑问是我的系统为AIX,它上面的grep不支持-o选项啊;对3楼的疑问是如果我的XML中有很多节点,我只要提取其中的某个特定的节点,能否再详细一点啊?多谢了!

论坛徽章:
0
5 [报告]
发表于 2008-11-26 22:57 |只看该作者
cat urfile|sed 's,<page>,\n,g;s,</page>,\n,g'|grep -v "<"
理论上没有问题,但是总觉得有点问题。

论坛徽章:
0
6 [报告]
发表于 2008-11-26 23:00 |只看该作者

回复 #5 walkerxk 的帖子

和偶的附加声明一样,<page>***<****</page>这样的内容会给枪毙,不过我觉得<>这类无聊符号不会出现在正文中……

论坛徽章:
0
7 [报告]
发表于 2008-11-26 23:17 |只看该作者
如果出现<book><page>1<2</page><page>page2</page></book>这种情况,我想XML解析也会出问题吧,这类写法应该是不能允许的,应该用&lt;替换或者其他。

论坛徽章:
0
8 [报告]
发表于 2008-11-26 23:30 |只看该作者

回复 #7 walkerxk 的帖子

对于xml的严格语法不太清楚,只是就我所见过的xml配置文件(cluster.conf、server.xml、……)而言,我都没见过正文里有这两种无聊符号,所以觉得应该不用考虑它。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
9 [报告]
发表于 2008-11-27 09:41 |只看该作者
使用xml工具。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP