免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3445 | 回复: 5
打印 上一主题 下一主题

openoffice odt文件解压成xml文件,项目编号以及文本的提取问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-07-02 12:14 |只看该作者 |倒序浏览
我用openoffice创建的一个odt文档,我先解压成xml文件,可是在content.xml里面找不到项目编号了,附件里是odt文件和解压出来的xml文件. 还有如何提取出正文文件,因为content.xml只有2行,还有许多格式的标记符,比如在content.xml提取出3.6.1 的内容"If someone loves a flower, of which just one single blossom grows in all the millions and millions of stars, it is enough to make him happy just to look at the stars. He can say to himself, "Somewhere, my flower is there…"。  求高手帮忙,万分感谢!!!

test1.png (20.49 KB, 下载次数: 16)

test1.png

test2.png (47.44 KB, 下载次数: 18)

test2.png

example.7z

16.62 KB, 下载次数: 1

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
2 [报告]
发表于 2014-07-02 12:26 |只看该作者
使用<[^>]/>就是啦

论坛徽章:
0
3 [报告]
发表于 2014-07-02 13:33 |只看该作者
求Perl代码回复 2# huang6894


   

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
4 [报告]
发表于 2014-07-02 21:20 |只看该作者
本帖最后由 104359176 于 2014-07-02 21:21 编辑

用Perl 处理 XML 很蛋疼,不如用 Ruby 或 Python 做个通用的 XML 解析,然后提取指定 tag 的程序。

论坛徽章:
0
5 [报告]
发表于 2014-07-03 09:35 |只看该作者
只会Perl的啊回复 4# 104359176


   

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
6 [报告]
发表于 2014-07-04 08:27 |只看该作者
回复 5# feiying00917


    连 Perl 都能学会,Ruby 和 Python 更不在话下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP