让Tesseract只识别数字

9
我正在尝试优化一个OCR程序,使其能够读取我使用的某个图像的布局。现在,我希望我的OCR程序只能识别数字0-9。
我尝试跟随以下问题的解决方案: 限制tesseract寻找的字符 但是,在调用tesseract的部分中,我卡住了。
tesseract input.tif output nobatch letters  

这去哪里?
4个回答

8

6

4
这个问题在Tesseract FAQ中有解答。
以下是如何让Tesseract只识别数字的方法:
在调用初始化函数之前,或者将以下内容放入名为tessdata/configs/digits的文本文件中(适用于Tesseract 2):
tessedit_char_whitelist 0123456789

然后你的命令行变成了:

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已经创建了一个数字配置文件,所以只需运行类似于这样的tesseract命令:

tesseract imagename outputbase digits

1

这是您在命令行上运行Tesseract的命令。

为了得到更好的答案,我们需要知道您是在命令行上运行Tesseract还是作为库。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接