Tesseract OCR - 手写字体

3
我将尝试使用Tesseract-OCR来检测图像中的纯文本,但这些文本具有一种名为Journal的手写字体。

示例:

enter image description here

结果不是最好的:

最大值!尺寸为 W(35)

是否有任何可能改善结果或获得精确结果?

2个回答

5
我很惊讶Tesseract表现得如此出色。稍微训练一下,你就应该能够正确识别小写字母'l'。
你面临的主要问题是大写'T'字符的顶部。这个水平线延伸到其他2(可能3)个字符单元格上,这会导致任何OCR引擎在尝试分割字符以进行识别时出现问题。在这种情况下,训练可能有所帮助。
接下来的问题是“.”和“:”非常轻/薄,可能在OCR开始之前被图像预处理删除。
总体而言,改善Tesseract的结果的唯一机会是调查培训。以下是一些可能有所帮助的链接。 Tesseract OCR培训的替代方案?
Tesseract OCR库学习字体
Tesseract混淆两个数字

-1

正如Andrew Cash所提到的那样,由于它与许多下一个字符的交叉,对于那个T字母执行OCR将非常困难。

为了改善结果,您可能需要尝试更准确的SDK。看看ABBYY Cloud OCR SDK,这是ABBYY最近推出的基于云的OCR SDK。它目前处于测试阶段,因此现在完全免费使用。我在ABBYY工作,如果需要,可以为您提供有关我们产品的其他信息。我已经将您附加的图像发送到我们的SDK,并获得了以下响应:

Maximal size: lall (35)

2
公平地说,问题标题提到了Tesseract,这意味着他在询问如何使用Tesseract执行此操作。 - Skrylar

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接