Java OCR库推荐?

12

我需要检查大量的图片,看看它们是否有一个关键词。有没有人推荐一个好的、可靠的OCR库?我愿意为准确性放弃速度。

我需要检查很多图片,以确定它们是否包含某个关键词。请问是否有一个好的、可靠的OCR库可以推荐?对于准确性我可以牺牲一些速度。

Weka怎么样?http://weka.wikispaces.com/Use+WEKA+in+your+Java+code - codeMan
2个回答

25

目前没有纯Java OCR库能与准确性有关。根据您的预算,您可以选择不是完全基于Java但可以从Java中调用的工具:

  • 如果您有充足的时间但没有预算 - 您的选择是Tesseract。它绝对是开源项目中最好的
  • 如果您有一点预算并且只需要运行此识别一次-Cloud OCR API服务是您最好的选择。它基于领先的商业级OCR引擎,并提供相当实惠的每个项目价格。免责声明:我为ABBYY工作
  • 如果您需要长期运行此识别,则您可能认为购买专用转换软件更经济高效,例如此产品,它具有API并且也可以从Java中调用。但实际上有很多替代方案,如果您愿意在许可证方面投资一些预算。

3
了解..tesseract不太行..需要进行过多的预处理,虽然它是开源的,但最好花费所需的金钱进行准确的处理..准确的OCR只是那些“付费即可使用”的要求之一。 - Jeryl Cook

2
如果您有识别非拉丁字母或数字符号的计划,最好找非Java库,从一些(外部)工具中选择并使用其他方法(1)获取您的文本。 在Linux上,我使用命令行接口通过cuneiform(2)进行翻译。
  1. 例如,命令行界面和管道。

  2. cuneiform已移植到Linux上,但我不知道Windows的命令行接口是否可用。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接