使用预定义字体图像训练“tesseract ocr”

4
我正在尝试从图像中识别 ASCII 字符。我使用 Tesseract3 库,但正确识别存在一些问题,因此我需要用新的字符集进行训练(这是特定的)。 我已经发现了这个 HOW-TO:TrainingTesseract3,但该教程有一些不必要的步骤,因为我的图像测试集很简单。 我的图像数据集仅包含一行字符,每个 ASCII 字符在所有图像中都相同(没有旋转,没有缩放),但是在该行中字符之间有可变的距离(仅水平方向)。
如何使用字体图像来训练识别算法?
1个回答

4

谢谢,我已经发现了jTessBoxEditor,但是不知道如何正确处理训练过程,因为我只有每种字体的精确图像,而且这些图像甚至比推荐的尺寸更小(仅为_9x6_px)。感谢您的正确指导。 - TomiL
如果你觉得使用jTessBoxEditor训练很困难...只需按照tesseract3上的指示使用serak trainer,你会发现它有多么容易。 - Jeffrey Orcena
有没有适用于Ubuntu的Serak培训师? - Hussain

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接