开源OCR

17
我正在寻找一个能在Linux上运行的开源OCR库,需要支持PNG和PDF格式。我希望能够通过Java或Ruby与这个库进行交互。请问是否有相关可用的内容?祝好。

1
你已经确认PDF中没有这段文本了,对吧?(我模糊地记得PNG也可能具有存储文本的能力,但我可能记错了)。 - Andrew Grimm
http://www.roncemer.com/software-development/java-ocr - Trick
3个回答

13

Tesseract是一款非常好的OCR引擎:https://github.com/tesseract-ocr/tesseract

该项目最初由HP实验室推出,现在由Google(为了Google图书!)继续发展和赞助。它采用Apache许可证发布,并且可以在Linux上运行。它使用Tiff或PNG文件;对于PDF文件,您需要将其转换为其中一种格式。我认为没有绑定,因此您应该将此软件作为子程序调用...


1

Cuneiform是免费的,而且做得相当不错。你可以将其作为子程序调用,但我不知道是否有语言绑定。它不能直接读取PDF文件,但你可以轻松地拆开由扫描图像序列组成的PDF文件,以将其馈送给Cuneiform。还有一些脚本可以重新组合图像和文本,使其成为可搜索的PDF文件。


0

尝试使用tesjeract,它使用JNI调用Tesseract OCR API。

对于PDF文件,您需要先将它们转换为图像,例如使用GhostScript。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接