设置Tesseract字体以进行OCR

46

我想使用Tesseract来识别序列号,只想识别单个字符,不需要识别单词或字典。 因此,我想使用已经训练好的Tesseract字体类型之一来获得更好的识别结果。

以下是训练好的Tesseract字体类型:

Andale_Mono.ttf
Arial_Black.ttf
Arial_Bold.ttf
Arial.ttf
Comic_Sans_MS_Bold.ttf
Comic_Sans_MS.ttf
Courier_New_Bold.ttf
Courier_New.ttf
Georgia_Bold.ttf
Georgia.ttf
Gottf
Impact.ttf
Times_New_Roman_Bold.ttf
Times_New_Roman.ttf
Trebuchet_MS_Bold.ttf
Trebuchet_MS.ttf
Verdana_Bold.ttf
Verdana.ttf

由于不同字体设计风格,训练出来的字体类型也存在区分问题,例如,“Z”和“2”字符。Times New Roman具有更圆润的设计,而Arial仅具有更直线的设计。

Font-type design differences

我的经验是,由于其他字体设计的相似性发生了变化,tesseract在区分“Z”和“2”时存在问题。

因此,我认为如果只使用一种字体类型(例如Arial)进行字符识别,就可以获得更好的识别结果。

问题:

tesseract是否有指定字体类型的可能性?

类似但较旧的主题(2012年10月)链接


3
可能是显式设置Tesseract-OCR用于识别的字体的重复问题。 - jtlz2
2个回答

1

虽然这个链接可能回答了问题,但最好在此处包含答案的基本部分并提供参考链接。如果链接页面更改,仅有链接的答案可能会失效。-【来自审查】 - user16217248
你的回答可以通过提供更多支持信息来改进。请编辑以添加进一步的细节,例如引用或文档,以便他人可以确认你的答案是正确的。您可以在帮助中心中找到有关如何编写良好答案的更多信息。 - Community
根据所需的设置量,很可能您无法带来必要的“有用”部分,除非将其切割到任何人仍需要访问页面的程度。鉴于情况,对我来说似乎很公平回答:“不行;但你可以训练它。如果想要进行训练,请参考tesseract文档。” - ferreiradev

1

到目前为止,这个选项还不可用。当前版本是Tesseract 5。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接