开源OCR

Question

17

我正在寻找一个能在Linux上运行的开源OCR库，需要支持PNG和PDF格式。我希望能够通过Java或Ruby与这个库进行交互。请问是否有相关可用的内容？祝好。

- Chris

1

你已经确认PDF中没有这段文本了，对吧？（我模糊地记得PNG也可能具有存储文本的能力，但我可能记错了）。 - Andrew Grimm

http://www.roncemer.com/software-development/java-ocr - Trick

3个回答

1

Cuneiform是免费的，而且做得相当不错。你可以将其作为子程序调用，但我不知道是否有语言绑定。它不能直接读取PDF文件，但你可以轻松地拆开由扫描图像序列组成的PDF文件，以将其馈送给Cuneiform。还有一些脚本可以重新组合图像和文本，使其成为可搜索的PDF文件。

- Ben Jackson

0

尝试使用tesjeract，它使用JNI调用Tesseract OCR API。

对于PDF文件，您需要先将它们转换为图像，例如使用GhostScript。

- nguyenq

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- olivierlemasle · Accepted Answer

该项目最初由HP实验室推出，现在由Google（为了Google图书！）继续发展和赞助。它采用Apache许可证发布，并且可以在Linux上运行。它使用Tiff或PNG文件；对于PDF文件，您需要将其转换为其中一种格式。我认为没有绑定，因此您应该将此软件作为子程序调用...