使用预定义字体图像训练“tesseract ocr”

Question

使用预定义字体图像训练“tesseract ocr”

pattern-matchingasciiocrtesseracttraining-data

4

我正在尝试从图像中识别 ASCII 字符。我使用 Tesseract3 库，但正确识别存在一些问题，因此我需要用新的字符集进行训练（这是特定的）。我已经发现了这个 HOW-TO：TrainingTesseract3，但该教程有一些不必要的步骤，因为我的图像测试集很简单。我的图像数据集仅包含一行字符，每个 ASCII 字符在所有图像中都相同（没有旋转，没有缩放），但是在该行中字符之间有可变的距离（仅水平方向）。

如何使用字体图像来训练识别算法？

- TomiL

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jeffrey Orcena · Accepted Answer

先生，只需获取所需训练的特定字体，然后在记事本中写入字母或数字（我认为每个字母5次），保存为tiff文件。如果您想要对其进行训练，请使用以下任何一个：https://code.google.com/p/serak-tesseract-trainer/ 或 http://vietocr.sourceforge.net/training.html。