Tesseract似乎无法处理数字。

Question

Tesseract似乎无法处理数字。

3

我按照常见问题解答的步骤让Tesseract识别数字，但是输出文件中我得到的却是一堆文本，尽管我输入的图片只有数字。

我的命令行如下：

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

任何想法是什么可能发生了？

- Artemix

您下载的最新版本是4.0吗？ - Dmitrii Z.

是的，从这个链接开始：https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows - Artemix

4.0-with-LSTM#400-alpha-for-windows - Artemix

好的，就像我之前说的那样，对于那个版本，很遗憾您不能使用 digits 参数（因为您无法黑名单或白名单任何字符）。相反，您应该使用需要的那些字符来训练 LSTM。对于数字和字母，已经完成了，并且您可以在 tessdata 存储库中找到这些文件。 - Dmitrii Z.

只需使用Shreeshrii提供的traineddata。用他/她创建的那个替换你tessdata-dir中的一个。虽然这可能会解决你的问题，但我建议你在生产中使用较旧的稳定版本的Tesseract。即使是在您的4.0版本中，您也可以将引擎模式（--oem）设置为仅使用tesseract来使用旧版的tesseract。 - Dmitrii Z.

显示剩余3条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Dmitrii Z. · Accepted Answer

如tesseract github issue所述，您无法使用tesseract 4.0 LSTM对字符进行黑名单或白名单处理，您需要使用期望在图像上看到的字符对LSTM进行训练。

感谢Shreeshrii，您可以尝试从这里下载他的“实验性”数字traineddata。

请注意，Tesseract 4.0仍处于alpha阶段，如果需要，您仍然可以使用3.*版本的tesseract，以满足您的需求。Tesseract v 3.4 tessdata位于此处，Windows库可从此处下载。