Tesseract OCR 无法创建.traindedata。

Question

3

问题：

我按照这里提供的逐步教程训练tesseract ocr来识别新字体。但在第5步和第6步中，并未创建所有所需文件。

我的操作：

我的图像文件是：en.va.exp0.tif

步骤1：创建.box文件 + 更正错误识别的字符

tesseract en.va.exp0.jpg en.va.exp0 batch.nochop makebox

步骤2： 创建 .tr 文件

tesseract en.va.exp0.tif en.va.exp0 box.train

第三步：从框文件中提取字符集。

unicharset_extractor  en.va.exp0.box

步骤4：创建font_properties文件

echo "va 0 0 1 0 0" > font_properties

步骤5：训练数据

mftraining -F font_properties -U unicharset -O en.unicharset en.va.exp0.tr

步骤6：训练数据

cntraining en.va.exp0.tr

据我所知，第5步应该创建4个文件：shapetable、inttemp、pffmtable和normproto。但只有shapetable文件被创建了。因此，第6步也不起作用（我认为它根本什么都没做）。 材料：

如果需要更多的解释或材料，我会补充并提前感谢。

- Der_Floh

我遇到了几乎相同的问题 - mftraining 无限运行并没有返回任何结果。你设法解决了吗？ - XxX

很遗憾，我没有成功解决这个问题 :( 如果你能解决它，请告诉我。 - Der_Floh

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- CrawL · Answer 1

0

尝试运行Tesseract 4而不是Tesseract 5。

- CrawL

这并没有解决问题。有谁能支持这个问题吗？ - undefined

你可以在这里进行跟进。 - undefined