免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3783 | 回复: 6
打印 上一主题 下一主题

[C++] 有研究过xpdf的吗?提取文字的部分在哪里啊? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-12-18 09:59 |只看该作者 |倒序浏览
10可用积分
我只要利用这个把PDF的文字提取出来

最佳答案

查看完整内容

有xdf的源码吧。1 格式转换 doc/pdftotext.cat xpdf/pdftotext.cc2 得到选择区域的文本xpdf/XPDFCore.cc $ cat xpdf/XPDFCore.cc |grep "Selection"

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
2 [报告]
发表于 2008-12-18 09:59 |只看该作者
原帖由 奥丁@ 于 2008-12-18 10:15 发表
我想在源代码中找到 而且语言要用C++

有xdf的源码吧。
1  格式转换
   doc/pdftotext.cat
   xpdf/pdftotext.cc

2 得到选择区域的文本
xpdf/XPDFCore.cc
$ cat xpdf/XPDFCore.cc |grep "Selection"
  1. GString *XPDFCore::currentSelection = NULL;
  2. XPDFCore *XPDFCore::currentSelectionOwner = NULL;
  3.   if (currentSelectionOwner == this && currentSelection) {
  4.     delete currentSelection;

  5. void XPDFCore::copySelection() {

  6.     currentSelectionOwner = this;
  7.     XtOwnSelection(drawArea, XA_PRIMARY, XtLastTimestampProcessed(display),
  8.                    &convertSelectionCbk, NULL, NULL);
  9. Boolean XPDFCore::convertSelectionCbk(Widget widget, Atom *selection,
复制代码

论坛徽章:
0
3 [报告]
发表于 2008-12-18 10:01 |只看该作者

论坛徽章:
0
4 [报告]
发表于 2008-12-18 10:15 |只看该作者
我想在源代码中找到 而且语言要用C++

论坛徽章:
0
5 [报告]
发表于 2008-12-18 10:20 |只看该作者
pdf提供api库。

论坛徽章:
0
6 [报告]
发表于 2008-12-18 10:51 |只看该作者
xpdf-3.02.tar.gz: the source code (674912 bytes)

http://www.foolabs.com/xpdf/download.html

在这里慢慢找吧

论坛徽章:
0
7 [报告]
发表于 2008-12-18 14:17 |只看该作者
我的意思是在程序中得到的文字 放在缓存里
就是转到文本之前的缓存
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP