替代Tesseract OCR训练的方法？

Question

替代Tesseract OCR训练的方法？

ocrtesseract

16

在过去的三个月里，我一直在尝试训练Tesseract识别一组图片。由于缺乏适当的文档和非常高的复杂性，我开始放弃Tesseract作为解决方案。

我正在寻找一个替代方案，它应该相对容易进行训练，我不想重新发明轮子。

如果没有免费的选择，我猜付费的解决方案也可以（价格不超过200美元）。

- Asaf

你能描述一下你的任务吗？商业OCR的价格可能会因卷数、功能等因素而大幅变化。 - Tomato

扫描大约200-300份格式相似的文件，并需要手动训练OCR引擎，以使识别准确度尽可能接近100％。 - Asaf

2个回答

2

你可以使用jTessBoxEditor来编辑你生成的框文件。它附带了一个PowerShell脚本，用于自动化生成框文件和最终的.traineddata文件。

- nguyenq

1

我尝试了这个，但是不起作用。我相信这是因为tesseract现在需要一个font_properties文件，而以前并不需要。 - gsgx

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tomato · Accepted Answer

根据您的评论，您只需要扫描相对较少的文件，并且准确率接近100％，您的预算约为200美元。那么答案很简单。您不需要任何编程解决方案，只需购买高质量的商业OCR产品，例如ABBYY FineReader（免责声明：我在ABBYY工作）。它在不同地区的价格不同，但我猜大约在您的预算范围内。商用桌面OCR产品将为您提供开箱即用的准确率接近100％的典型语言。此外，它们还具有方便的手动验证工具，以修复所有剩余错误。通常，它们支持各种现代字体，但如果您的字体不是普通的，它们确实有针对该字体的字体训练实用程序。我认为这是您的最佳解决方案。

更新：Linux平台。很遗憾，对于Linux几乎没有高质量的OCR产品可供选择，抱歉。我所知道的唯一一个来自ABBYY：http://ocr4linux.com/en:start但它没有UI，验证和字体训练。但至少您可以尝试一下，看看它是否足够准确，这可能是情况。