我需要检查大量的图片,看看它们是否有一个关键词。有没有人推荐一个好的、可靠的OCR库?我愿意为准确性放弃速度。 我需要检查很多图片,以确定它们是否包含某个关键词。请问是否有一个好的、可靠的OCR库可以推荐?对于准确性我可以牺牲一些速度。
目前没有纯Java OCR库能与准确性有关。根据您的预算,您可以选择不是完全基于Java但可以从Java中调用的工具: 如果您有充足的时间但没有预算 - 您的选择是Tesseract。它绝对是开源项目中最好的 如果您有一点预算并且只需要运行此识别一次-Cloud OCR API服务是您最好的选择。它基于领先的商业级OCR引擎,并提供相当实惠的每个项目价格。免责声明:我为ABBYY工作 如果您需要长期运行此识别,则您可能认为购买专用转换软件更经济高效,例如此产品,它具有API并且也可以从Java中调用。但实际上有很多替代方案,如果您愿意在许可证方面投资一些预算。
如果您有识别非拉丁字母或数字符号的计划,最好找非Java库,从一些(外部)工具中选择并使用其他方法(1)获取您的文本。 在Linux上,我使用命令行接口通过cuneiform(2)进行翻译。 例如,命令行界面和管道。 cuneiform已移植到Linux上,但我不知道Windows的命令行接口是否可用。