替代Tesseract OCR训练的方法?

16

在过去的三个月里,我一直在尝试训练Tesseract识别一组图片。由于缺乏适当的文档和非常高的复杂性,我开始放弃Tesseract作为解决方案。

我正在寻找一个替代方案,它应该相对容易进行训练,我不想重新发明轮子。

如果没有免费的选择,我猜付费的解决方案也可以(价格不超过200美元)。


你能描述一下你的任务吗?商业OCR的价格可能会因卷数、功能等因素而大幅变化。 - Tomato
扫描大约200-300份格式相似的文件,并需要手动训练OCR引擎,以使识别准确度尽可能接近100%。 - Asaf
2个回答

6
根据您的评论,您只需要扫描相对较少的文件,并且准确率接近100%,您的预算约为200美元。那么答案很简单。您不需要任何编程解决方案,只需购买高质量的商业OCR产品,例如ABBYY FineReader(免责声明:我在ABBYY工作)。它在不同地区的价格不同,但我猜大约在您的预算范围内。商用桌面OCR产品将为您提供开箱即用的准确率接近100%的典型语言。此外,它们还具有方便的手动验证工具,以修复所有剩余错误。通常,它们支持各种现代字体,但如果您的字体不是普通的,它们确实有针对该字体的字体训练实用程序。我认为这是您的最佳解决方案。
更新:Linux平台。很遗憾,对于Linux几乎没有高质量的OCR产品可供选择,抱歉。我所知道的唯一一个来自ABBYY:http://ocr4linux.com/en:start但它没有UI,验证和字体训练。但至少您可以尝试一下,看看它是否足够准确,这可能是情况。

我在家使用的操作系统是Ubuntu,这对FineReader会有影响吗? - Asaf
Tesseract在“典型语言”上表现得相当不错,训练的重点几乎总是处理非典型语言... - user18015

2
你可以使用jTessBoxEditor来编辑你生成的框文件。它附带了一个PowerShell脚本,用于自动化生成框文件和最终的.traineddata文件。

1
我尝试了这个,但是不起作用。我相信这是因为tesseract现在需要一个font_properties文件,而以前并不需要。 - gsgx

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接