如何从PDF中提取文本？

Question

如何从PDF中提取文本？

pdftextghostscriptextracttext-extraction

187

有没有人可以推荐一个用于从PDF中提取文本和图像的库/API？

我们需要能够获取文档中预先已知区域内的文本，因此API需要为我们提供每个元素在页面上的位置信息。

我们希望将该数据输出为xml或json格式。目前我们正在研究PdfTextStream，它看起来非常不错，但我们想听听其他人的经验和建议。

有没有其他的方法（商业或免费）可以程序化地从PDF中提取文本？

- Budda007

相关问题: 从PDF中提取带坐标和尺寸的图像和文字 - yms

2

对于那些只需要非常简单的内容（没有位置信息）的人来说，这个Perl正则表达式可能已经足够了：/^\s*\[?\((.*?)\)\]?\s*T[Jj]/mg。它只是寻找Tj/TJ运算符，这表示PDF中的所有普通文本。 - Alex R

1

使用TomRoush PdfBox库在安卓上运行良好。 - FaisalAhmed

1

在Stack Overflow上，图书馆推荐不属于话题范围。这类问题可能适用于https://softwarerecs.stackexchange.com/。在那里提问之前，请阅读他们的帮助中心和提问指南。 - Dalija Prasnikar

15个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Sebastien Malot · Answer 1

我知道这个话题很老了，但这种需求仍然存在。我阅读了许多文档、论坛和脚本，并构建了一个新的高级版本，支持压缩和未压缩的pdf文件：

https://gist.github.com/smalot/6183152

有时出于安全原因禁用命令行。因此，本地的PHP类可以满足许多需求。

希望它能帮助每个人。

- Sun · Answer 2

对于图像提取，pdfimages是一个免费的命令行工具，适用于Linux或Windows（win32）：

pdfimages：从便携式文档格式（PDF）文件中提取和保存图像

- Wolfgang Fahl · Answer 3

Apache pdfbox具有此功能 - 文本部分的描述如下：

http://pdfbox.apache.org/apidocs/org/apache/pdfbox/util/PDFTextStripper.html

例如实现请参见https://github.com/WolfgangFahl/pdfindexer 测试用例TestPdfIndexer.testExtracting展示了它的工作原理。

- Dick Guertin · Answer 4

在我的 Macintosh 系统上，我发现 "Adobe Reader" 做得相当不错。我在桌面上创建了一个指向 "Adobe Reader.app" 的别名，然后只需将 pdf 文件拖放到别名上，它就会成为 Adobe Reader 中的活动文档，然后从文件菜单中选择 "另存为文本..."，给它起个名字并选择保存位置，点击 "保存"，就完成了。

- Andrew Cash · Answer 5

QuickPDF似乎是一个合理的库，可以以合理的价格实现您想要的功能。

http://www.quickpdflibrary.com/ - 他们提供30天的试用期。