123 4 5 6 7 8 / 8 页下一页

求助:perl 处理xml内容 [复制链接]

pitonas

家境小康

论坛徽章:: 5

11楼 [报告]

发表于 2014-02-19 13:01 |只看该作者

本帖最后由 pitonas 于 2014-02-19 06:05 编辑

rexuekonglon.xml 文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<list>
<entry>
<author>zhangsan</author>
<kind>add</kind>
<filename>[color=Yellow] log4j.java[/color]</filename>
<message>内容随意</message>
<path>[color=Yellow]C:\code\[/color]</path>
</entry>
<entry>
<author>zhangsan</author>
<kind>modified</kind>
<filename>[color=Orange]log.txt[/color]</filename>
<message>增加一个空格</message>
<path>[color=Yellow]C:\code\[/color]</path>
</entry>
<entry>
<author>zhangsan</author>
<kind>modified</kind>
<filename>[color=Yellow] log4j.java[/color]</filename>
<message>增加说明注释</message>
<path>[color=Yellow]C:\code\[/color]</path>
</entry>
</list>

复制代码

#!/usr/bin/perl
open my $x, 'rexuekonglon.xml';
my $xml = do { local $/; <$x> };
my @xml = split /(?<=<\/entry>)/, $xml;
my %first;
for (@xml) {
print and next unless /entry>/;
my ( $filename, $path ) = /\]\s*(\S*?)\s*\[.*?\]\s*(\S*?)\s*\[/s;
print if !$first{ $path . $filename }++;
}

复制代码

result 如下：

<?xml version="1.0" encoding="UTF-8"?>
<list>
<entry>
<author>zhangsan</author>
<kind>add</kind>
<filename>[color=Yellow] log4j.java[/color]</filename>
<message>内容随意</message>
<path>[color=Yellow]C:\code\[/color]</path>
</entry>
<entry>
<author>zhangsan</author>
<kind>modified</kind>
<filename>[color=Orange]log.txt[/color]</filename>
<message>增加一个空格</message>
<path>[color=Yellow]C:\code\[/color]</path>
</entry>
</list>

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rexuekonglong

丰衣足食

论坛徽章:: 0

12楼 [报告]

发表于 2014-02-19 16:05 |只看该作者

回复 11# pitonas

非常感谢，不过我尝试过上述代码后，xml文件被缩减只剩下第一段<entry>
见图：

代码使用；

结果展示；

真正的1.xml中有9段<entry> ，其中有7段是<filename><path>值是相同的；

多请教一步，最后

print if !$first {$path . $filename}++;

复制代码

结果是自动保存在了$x中吗？
如果我想把截取后的结果重新保存在2.xml中，然后用Dumper 解析输出，下面这样写行么？

for (@xml){
.........
if （!$first {$path . $filename}++）
{
cat $x > 2.xml;
}
}
my $y = new XML::Simple;
my $data = $y->XMLin(2.xml);
print Dumper($data);

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

13楼 [报告]

发表于 2014-02-19 16:39 |只看该作者

非常感谢
如果你贴上你真实的文件内容{:2_172:}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rexuekonglong

丰衣足食

论坛徽章:: 0

14楼 [报告]

发表于 2014-02-19 16:55 |只看该作者

回复 13# pitonas
其实我真是xml文件内容，也就比我给的那个xml样例，少5个子节点而已。
12#的结果图片，就是第一段<entry>完整内容，之所以选择<path><filename>这两个子节点作为匹配关键，就是因为，其他的都不足以确定显示的文件内容是否必要。

<path> </path> 的值中中文、英文、斜线、都有，如果是因为目前我的测试xml中<path>值存在乱码而导致<path>判断出错，那么我去换个全部都是纯英文的再试下。
<filename></filename>的值大多都是纯英文的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pitonas

家境小康

论坛徽章:: 5

15楼 [报告]

发表于 2014-02-20 13:17 |只看该作者

{:2_172:}小伙伴们, 这个再试试

#!/usr/bin/perl
open my $x, 'rexuekonglon.xml';
my $xml = do { local $/; <$x> };
my @xml = split /(?<=<\/entry>)/, $xml;
my %first;
for (@xml) {
print and next unless /entry>/;
my %fh = /<(filename|path)>\s*(\S+)\s*</g;
print if !$first{ $fh{path} . $fh{filename} }++;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rexuekonglong

丰衣足食

论坛徽章:: 0

16楼 [报告]

发表于 2014-02-20 14:47 |只看该作者

回复 15# pitonas
尝试结果如下：
[error] Global symbol "%fh" requires explicit package name at  login.cgi line 44.
      Global symbol "$path" requires explicit package name at  login.cgi line 44
      Global symbol "$filename" requires explicit package name at  login.cgi line 44