为Tesseract OCR创建一个训练图像

Question

为Tesseract OCR创建一个训练图像

ocrtesseract

8

我正在为Tesseract OCR编写一个训练图像生成器。

当为Tesseract OCR生成新字体的训练图像时，以下是最佳值：

1. DPI 2. 点数大小 3. 字体是否抗锯齿 4. 边界框是否应该紧密适合： enter image description here

还是不适合：

- sashoalm

请尝试使用12点字体和300 dpi。 - Yaroslav Bulatov

3个回答

1

适用于Tesseract训练的好工具 http://vietocr.sourceforge.net/training.html

它是一个好的工具，因为具有以下优点：

可通过基于GUI的界面编辑字母的边界框
自动创建所有必需的文件
自动将所有文件合并为单个eng.traineddata文件，例如freq-dawg、word-dawg、user-words（可以为空文件）、Inttemp、Normproto、Pffmtable、Unicharset、DangAmbigs（可以为空文件）和shapetable。
新的训练数据可以与现有的tesseract文件end.traineddata一起使用

- N.Singh

1

我找到了第四个问题的答案 - “边框应该紧密贴合吗”。

看起来尽可能贴合矩形会得到更好的结果。

对于其他12个点和300 dpi的情况，像@Yaroslav建议的那样足够好。我认为最好关闭抗锯齿。

- sashoalm

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Luiza Utsch · Accepted Answer

第二个问题在这里有些回答：http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 。不需要使用多个尺寸进行训练，只需使用10点即可。（一个例外是非常小的文本。如果您想识别的文本具有小于约15像素的x高度，则应专门进行训练或在尝试识别它们之前缩放图像。）

第1和第3个问题：通过经验，我已成功使用300 dpi图像/无反锯齿字体。更具体地说，我使用了以下转换参数对训练pdf进行了处理，生成了令人满意的图像：

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

但是，当我试图向 Tesseract 添加一个点状字体时，只有在使用 150 dpi 图像时才能正确检测字符。因此，我认为没有通用解决方案，它取决于您尝试添加的字体类型。