在过去的三个月里,我一直在尝试训练Tesseract识别一组图片。由于缺乏适当的文档和非常高的复杂性,我开始放弃Tesseract作为解决方案。 我正在寻找一个替代方案,它应该相对容易进行训练,我不想重新发明轮子。 如果没有免费的选择,我猜付费的解决方案也可以(价格不超过200美元)。
根据您的评论,您只需要扫描相对较少的文件,并且准确率接近100%,您的预算约为200美元。那么答案很简单。您不需要任何编程解决方案,只需购买高质量的商业OCR产品,例如ABBYY FineReader(免责声明:我在ABBYY工作)。它在不同地区的价格不同,但我猜大约在您的预算范围内。商用桌面OCR产品将为您提供开箱即用的准确率接近100%的典型语言。此外,它们还具有方便的手动验证工具,以修复所有剩余错误。通常,它们支持各种现代字体,但如果您的字体不是普通的,它们确实有针对该字体的字体训练实用程序。我认为这是您的最佳解决方案。更新:Linux平台。很遗憾,对于Linux几乎没有高质量的OCR产品可供选择,抱歉。我所知道的唯一一个来自ABBYY:http://ocr4linux.com/en:start但它没有UI,验证和字体训练。但至少您可以尝试一下,看看它是否足够准确,这可能是情况。