我正在尝试使用Leptonica处理以下图片,以便用Tesseract提取文本。
原始图片:
Tesseract对原始图片的结果如下:
i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-
不太理想,特别是顶部的背景。因此,我使用leptionica使用背景去除算法(模糊、差异、阈值、反转)得到以下图像:
但是tesseract对它处理得并不好:
@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I
主要问题似乎是现在所有的文本都被勾勒出来而不是实心。我应该如何调整我的算法或加入什么内容使文本变得实心?