免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2642 | 回复: 5
打印 上一主题 下一主题

有什么方法能提取word/PDF文件中的文本 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-03-01 10:52 |只看该作者 |倒序浏览
象gmail那种可以在线浏览word文件的是怎么做出来的
谁作过类似的,能给些参考文档么
谢谢啦

论坛徽章:
0
2 [报告]
发表于 2006-03-01 15:42 |只看该作者
你把pdf的文本格式hack一下就可以了

论坛徽章:
1
技术图书徽章
日期:2013-12-05 23:25:45
3 [报告]
发表于 2006-03-01 15:43 |只看该作者
主要就是能够解析文件格式。


word可以保存为XML格式,虽然垃圾代码很多。

论坛徽章:
0
4 [报告]
发表于 2006-03-01 18:18 |只看该作者
..... 就是普通的word文档
有办法么?

论坛徽章:
0
5 [报告]
发表于 2006-03-01 20:39 |只看该作者
word and pdf using META.

论坛徽章:
0
6 [报告]
发表于 2006-03-02 01:10 |只看该作者
似乎用com组件可以完成吧
乔初大大,转成xml怎么转呢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP