有没有办法提高tesseract OCR在小字体上的识别率？

Question

13

我想使用python-tesseract来识别类似这样的低分辨率字体：

enter image description here

不幸的是，这个图片无法被识别。

ZIJZHZI

我认为分辨率太低了，这可能导致问题。我尝试过放大图像并将其裁剪成单个字符，但这些方法都没有提供很多改善。是否有其他方案可考虑，最好使用Python Imaging Library完成？或者我应该放弃，改用Tesseract训练？

就价值而言，PIL具有以下内置滤镜：

BLUR、CONTOUR、DETAIL、EDGE_ENHANCE、EDGE_ENHANCE_MORE、EMBOSS、FIND_EDGES、SMOOTH、SMOOTH_MORE和SHARPEN。

- Riazm

尝试使用抗锯齿对x6进行调整大小。我已经在截图上尝试过，并获得了良好的结果。 - Nick Dandoulakis

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Hristo Hristov · Accepted Answer

19

我尝试使用以下代码放大图片：

  convert -resize 400% in.bmp out.bmp

然后阅读它：

  tesseract out.bmp res

结果是正确的：

- Hristo Hristov

1

convert 是 ImageMagick 的一部分，它只是调整图像大小。 - Hristo Hristov

在正常分辨率下，它给我输出了"mm readmxs"。调整尺寸后，输出文件读取为"你能读到这句话吗？" - Robert Mihai Ionas

@RobertMihaiIonas，你能提供图片吗？ - Hristo Hristov

convert可以完成这个任务，但是必须要加上psm 12参数：tesseract out.bmp stdout -psm 12. - ton