如何从PDF中提取文本?

187

有没有人可以推荐一个用于从PDF中提取文本和图像的库/API?

我们需要能够获取文档中预先已知区域内的文本,因此API需要为我们提供每个元素在页面上的位置信息。

我们希望将该数据输出为xmljson格式。目前我们正在研究PdfTextStream,它看起来非常不错,但我们想听听其他人的经验和建议。

有没有其他的方法(商业或免费)可以程序化地从PDF中提取文本?


2
对于那些只需要非常简单的内容(没有位置信息)的人来说,这个Perl正则表达式可能已经足够了:/^\s*\[?\((.*?)\)\]?\s*T[Jj]/mg。它只是寻找Tj/TJ运算符,这表示PDF中的所有普通文本。 - Alex R
1
使用TomRoush PdfBox库在安卓上运行良好。 - FaisalAhmed
1
在Stack Overflow上,图书馆推荐不属于话题范围。这类问题可能适用于https://softwarerecs.stackexchange.com/。在那里提问之前,请阅读他们的帮助中心和提问指南。 - Dalija Prasnikar
15个回答

3

我知道这个话题很老了,但这种需求仍然存在。我阅读了许多文档、论坛和脚本,并构建了一个新的高级版本,支持压缩和未压缩的pdf文件:

https://gist.github.com/smalot/6183152

有时出于安全原因禁用命令行。 因此,本地的PHP类可以满足许多需求。

希望它能帮助每个人。


2

2

1
在我的 Macintosh 系统上,我发现 "Adobe Reader" 做得相当不错。我在桌面上创建了一个指向 "Adobe Reader.app" 的别名,然后只需将 pdf 文件拖放到别名上,它就会成为 Adobe Reader 中的活动文档,然后从文件菜单中选择 "另存为文本...",给它起个名字并选择保存位置,点击 "保存",就完成了。

6
OP正在寻找一种从PDF中以编程方式提取文本的解决方案。您的答案提出了手动例程。 - mkl

1

QuickPDF似乎是一个合理的库,可以以合理的价格实现您想要的功能。

http://www.quickpdflibrary.com/ - 他们提供30天的试用期。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接