为Tesseract OCR创建一个训练图像

8
我正在为Tesseract OCR编写一个训练图像生成器。
当为Tesseract OCR生成新字体的训练图像时,以下是最佳值:
1. DPI 2. 点数大小 3. 字体是否抗锯齿 4. 边界框是否应该紧密适合:enter image description here 还是不适合:enter image description here

请尝试使用12点字体和300 dpi。 - Yaroslav Bulatov
3个回答

2
第二个问题在这里有些回答:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 。不需要使用多个尺寸进行训练,只需使用10点即可。 (一个例外是非常小的文本。如果您想识别的文本具有小于约15像素的x高度,则应专门进行训练或在尝试识别它们之前缩放图像。)
第1和第3个问题:通过经验,我已成功使用300 dpi图像/无反锯齿字体。更具体地说,我使用了以下转换参数对训练pdf进行了处理,生成了令人满意的图像:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

但是,当我试图向 Tesseract 添加一个点状字体时,只有在使用 150 dpi 图像时才能正确检测字符。因此,我认为没有通用解决方案,它取决于您尝试添加的字体类型。


1

适用于Tesseract训练的好工具 http://vietocr.sourceforge.net/training.html

它是一个好的工具,因为具有以下优点:

  1. 可通过基于GUI的界面编辑字母的边界框
  2. 自动创建所有必需的文件
  3. 自动将所有文件合并为单个eng.traineddata文件,例如freq-dawg、word-dawg、user-words(可以为空文件)、Inttemp、Normproto、Pffmtable、Unicharset、DangAmbigs(可以为空文件)和shapetable。
  4. 新的训练数据可以与现有的tesseract文件end.traineddata一起使用

1

我找到了第四个问题的答案 - “边框应该紧密贴合吗”。

看起来尽可能贴合矩形会得到更好的结果。

对于其他12个点和300 dpi的情况,像@Yaroslav建议的那样足够好。我认为最好关闭抗锯齿。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接