有没有人可以推荐一个用于从PDF中提取文本和图像的库/API?
我们需要能够获取文档中预先已知区域内的文本,因此API需要为我们提供每个元素在页面上的位置信息。
我们希望将该数据输出为xml
或json
格式。目前我们正在研究PdfTextStream,它看起来非常不错,但我们想听听其他人的经验和建议。
有没有其他的方法(商业或免费)可以程序化地从PDF中提取文本?
有没有人可以推荐一个用于从PDF中提取文本和图像的库/API?
我们需要能够获取文档中预先已知区域内的文本,因此API需要为我们提供每个元素在页面上的位置信息。
我们希望将该数据输出为xml
或json
格式。目前我们正在研究PdfTextStream,它看起来非常不错,但我们想听听其他人的经验和建议。
有没有其他的方法(商业或免费)可以程序化地从PDF中提取文本?
我知道这个话题很老了,但这种需求仍然存在。我阅读了许多文档、论坛和脚本,并构建了一个新的高级版本,支持压缩和未压缩的pdf文件:
https://gist.github.com/smalot/6183152
有时出于安全原因禁用命令行。 因此,本地的PHP类可以满足许多需求。
希望它能帮助每个人。
http://pdfbox.apache.org/apidocs/org/apache/pdfbox/util/PDFTextStripper.html
例如实现请参见https://github.com/WolfgangFahl/pdfindexer 测试用例TestPdfIndexer.testExtracting展示了它的工作原理。
/^\s*\[?\((.*?)\)\]?\s*T[Jj]/mg
。它只是寻找Tj/TJ运算符,这表示PDF中的所有普通文本。 - Alex R