Tesseract似乎无法处理数字。

3

我按照常见问题解答的步骤让Tesseract识别数字,但是输出文件中我得到的却是一堆文本,尽管我输入的图片只有数字。

我的命令行如下:

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

任何想法是什么可能发生了?

您下载的最新版本是4.0吗? - Dmitrii Z.
是的,从这个链接开始:https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows - Artemix
4.0-with-LSTM#400-alpha-for-windows - Artemix
好的,就像我之前说的那样,对于那个版本,很遗憾您不能使用 digits 参数(因为您无法黑名单或白名单任何字符)。相反,您应该使用需要的那些字符来训练 LSTM。对于数字和字母,已经完成了,并且您可以在 tessdata 存储库中找到这些文件。 - Dmitrii Z.
只需使用Shreeshrii提供的traineddata。用他/她创建的那个替换你tessdata-dir中的一个。虽然这可能会解决你的问题,但我建议你在生产中使用较旧的稳定版本的Tesseract。即使是在您的4.0版本中,您也可以将引擎模式(--oem)设置为仅使用tesseract来使用旧版的tesseract。 - Dmitrii Z.
显示剩余3条评论
1个回答

5
tesseract github issue所述,您无法使用tesseract 4.0 LSTM对字符进行黑名单或白名单处理,您需要使用期望在图像上看到的字符对LSTM进行训练。

感谢Shreeshrii,您可以尝试从这里下载他的“实验性”数字traineddata。
请注意,Tesseract 4.0仍处于alpha阶段,如果需要,您仍然可以使用3.*版本的tesseract,以满足您的需求。Tesseract v 3.4 tessdata位于此处,Windows库可从此处下载。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接