有没有办法提高tesseract OCR在小字体上的识别率?

13
我想使用python-tesseract来识别类似这样的低分辨率字体:

enter image description here

不幸的是,这个图片无法被识别。
ZIJZHZI
我认为分辨率太低了,这可能导致问题。我尝试过放大图像并将其裁剪成单个字符,但这些方法都没有提供很多改善。是否有其他方案可考虑,最好使用Python Imaging Library完成?或者我应该放弃,改用Tesseract训练?
就价值而言,PIL具有以下内置滤镜:
BLUR、CONTOUR、DETAIL、EDGE_ENHANCE、EDGE_ENHANCE_MORE、EMBOSS、FIND_EDGES、SMOOTH、SMOOTH_MORE和SHARPEN。

尝试使用抗锯齿对x6进行调整大小。我已经在截图上尝试过,并获得了良好的结果。 - Nick Dandoulakis
1个回答

19

我尝试使用以下代码放大图片:

  convert -resize 400% in.bmp out.bmp

然后阅读它:

  tesseract out.bmp res
结果是正确的:
  100

1
convert 是 ImageMagick 的一部分,它只是调整图像大小。 - Hristo Hristov
在正常分辨率下,它给我输出了"mm readmxs"。调整尺寸后,输出文件读取为"你能读到这句话吗?" - Robert Mihai Ionas
@RobertMihaiIonas,你能提供图片吗? - Hristo Hristov
convert可以完成这个任务,但是必须要加上psm 12参数:tesseract out.bmp stdout -psm 12. - ton

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接