Tesseract OCR - 手写字体

Question

Tesseract OCR - 手写字体

ocrtesseracthandwriting

3

我将尝试使用Tesseract-OCR来检测图像中的纯文本，但这些文本具有一种名为Journal的手写字体。

示例：

enter image description here

结果不是最好的：

最大值！尺寸为 W（35）

是否有任何可能改善结果或获得精确结果？

- Poru

2个回答

-1

正如Andrew Cash所提到的那样，由于它与许多下一个字符的交叉，对于那个T字母执行OCR将非常困难。

为了改善结果，您可能需要尝试更准确的SDK。看看ABBYY Cloud OCR SDK，这是ABBYY最近推出的基于云的OCR SDK。它目前处于测试阶段，因此现在完全免费使用。我在ABBYY工作，如果需要，可以为您提供有关我们产品的其他信息。我已经将您附加的图像发送到我们的SDK，并获得了以下响应：

Maximal size: lall (35)

- Nikolay

2

公平地说，问题标题提到了Tesseract，这意味着他在询问如何使用Tesseract执行此操作。 - Skrylar

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Andrew Cash · Accepted Answer

我很惊讶Tesseract表现得如此出色。稍微训练一下，你就应该能够正确识别小写字母'l'。

你面临的主要问题是大写'T'字符的顶部。这个水平线延伸到其他2（可能3）个字符单元格上，这会导致任何OCR引擎在尝试分割字符以进行识别时出现问题。在这种情况下，训练可能有所帮助。

接下来的问题是“.”和“:”非常轻/薄，可能在OCR开始之前被图像预处理删除。

总体而言，改善Tesseract的结果的唯一机会是调查培训。以下是一些可能有所帮助的链接。 Tesseract OCR培训的替代方案？
Tesseract OCR库学习字体
Tesseract混淆两个数字