让Tesseract只识别数字

Question

9

我正在尝试优化一个OCR程序，使其能够读取我使用的某个图像的布局。现在，我希望我的OCR程序只能识别数字0-9。

我尝试跟随以下问题的解决方案：限制tesseract寻找的字符但是，在调用tesseract的部分中，我卡住了。

tesseract input.tif output nobatch letters

这去哪里？

- user1397215

4个回答

6

我之前在SO上发布了一些关于tesseract的内容：请参见Tesseract OCR Library - Learning Font。其中有一个值得注意的链接到tesseract训练，它将告诉您如何限制您的字符集并描述您的歧义。

- Emmanuel

4

这个问题在Tesseract FAQ中有解答。

以下是如何让Tesseract只识别数字的方法：

在调用初始化函数之前，或者将以下内容放入名为tessdata/configs/digits的文本文件中（适用于Tesseract 2）：

tessedit_char_whitelist 0123456789

然后你的命令行变成了：

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已经创建了一个数字配置文件，所以只需运行类似于这样的tesseract命令：

tesseract imagename outputbase digits

- valentt

1

这是您在命令行上运行Tesseract的命令。

为了得到更好的答案，我们需要知道您是在命令行上运行Tesseract还是作为库。

- ojs

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- cgte · Accepted Answer

我在使用Python的过程中遇到了同样的问题，涉及到Tesseract 3。假设读者们也有类似问题。

pytesseract.image_to_string(someimage, config='outputbase digits')