我正在为Tesseract OCR编写一个训练图像生成器。
当为Tesseract OCR生成新字体的训练图像时,以下是最佳值:
1. DPI 2. 点数大小 3. 字体是否抗锯齿 4. 边界框是否应该紧密适合: 还是不适合:
当为Tesseract OCR生成新字体的训练图像时,以下是最佳值:
1. DPI 2. 点数大小 3. 字体是否抗锯齿 4. 边界框是否应该紧密适合: 还是不适合:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
但是,当我试图向 Tesseract 添加一个点状字体时,只有在使用 150 dpi 图像时才能正确检测字符。因此,我认为没有通用解决方案,它取决于您尝试添加的字体类型。
适用于Tesseract训练的好工具 http://vietocr.sourceforge.net/training.html
它是一个好的工具,因为具有以下优点:
eng.traineddata
文件,例如freq-dawg、word-dawg、user-words(可以为空文件)、Inttemp、Normproto、Pffmtable、Unicharset、DangAmbigs(可以为空文件)和shapetable。end.traineddata
一起使用我找到了第四个问题的答案 - “边框应该紧密贴合吗”。
看起来尽可能贴合矩形会得到更好的结果。
对于其他12个点和300 dpi的情况,像@Yaroslav建议的那样足够好。我认为最好关闭抗锯齿。