使用Leptonica进行OCR的图像处理(反色文本)

16

我正在尝试使用Leptonica处理以下图片,以便用Tesseract提取文本。

原始图片: 原始图片

Tesseract对原始图片的结果如下:

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-

不太理想,特别是顶部的背景。因此,我使用leptionica使用背景去除算法(模糊、差异、阈值、反转)得到以下图像:processed image

但是tesseract对它处理得并不好:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I

主要问题似乎是现在所有的文本都被勾勒出来而不是实心。我应该如何调整我的算法或加入什么内容使文本变得实心?

1个回答

11

太好了。在我接受答案之前,你不会碰巧知道这个算法的实现吧? - jasonlfunk
不好意思,我不知道是否存在实现。 - sastanin
9
我使用Python和OpenCV实现了这个项目。谢谢! https://github.com/jasonlfunk/ocr-text-extraction - jasonlfunk
这是一项伟大的努力,看起来很有前途,但现在文本的呈现就像从某个档案中挖掘出来的一样,基本上文本对读者来说不够清晰可见,就像你在右侧远处看到的那样(c)。 - KJW

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接