设置Tesseract字体以进行OCR

Question

设置Tesseract字体以进行OCR

46

我想使用Tesseract来识别序列号，只想识别单个字符，不需要识别单词或字典。因此，我想使用已经训练好的Tesseract字体类型之一来获得更好的识别结果。

以下是训练好的Tesseract字体类型：

Andale_Mono.ttf
Arial_Black.ttf
Arial_Bold.ttf
Arial.ttf
Comic_Sans_MS_Bold.ttf
Comic_Sans_MS.ttf
Courier_New_Bold.ttf
Courier_New.ttf
Georgia_Bold.ttf
Georgia.ttf
Gottf
Impact.ttf
Times_New_Roman_Bold.ttf
Times_New_Roman.ttf
Trebuchet_MS_Bold.ttf
Trebuchet_MS.ttf
Verdana_Bold.ttf
Verdana.ttf

由于不同字体设计风格，训练出来的字体类型也存在区分问题，例如，“Z”和“2”字符。Times New Roman具有更圆润的设计，而Arial仅具有更直线的设计。

Font-type design differences

我的经验是，由于其他字体设计的相似性发生了变化，tesseract在区分“Z”和“2”时存在问题。

因此，我认为如果只使用一种字体类型（例如Arial）进行字符识别，就可以获得更好的识别结果。

问题：

tesseract是否有指定字体类型的可能性？

类似但较旧的主题（2012年10月）链接

- Mr.Sheep

3

可能是显式设置Tesseract-OCR用于识别的字体的重复问题。 - jtlz2

2个回答

1

到目前为止，这个选项还不可用。当前版本是Tesseract 5。

- Esraa Abdelmaksoud

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user3264500 · Accepted Answer

不可以，但您可以尝试使用您想要的字体训练自己的模型。您也可以尝试微调其现有的英语模型。

请参阅以下资源以获取更多信息：

https://github.com/tesseract-ocr/tesstrain

https://tesseract-ocr.github.io/tessdoc/tess5/TrainingTesseract-5.html

一个公平的警告：这是一个有点复杂的过程，可能需要您花费一些时间。