使用ImageMagick和'textcleaner'清理图像以进行OCR

8
我有以下图片,希望使用tesseract进行OCR识别准备: enter image description here 目标是清理图像并消除所有噪点。 我正在使用textcleaner脚本,该脚本使用ImageMagick并具有以下参数:
./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg

输出仍然不够干净: enter image description here 我尝试了各种参数的变化,但没有成功。有人有想法吗?
1个回答

12

如果你转换为JPEG,你将始终看到与你所见到的相同类型的伪影。

这是JPEG压缩的典型“特征”。对于显示锐利线条、在图像不同区域之间具有统一颜色对比度、仅使用非常少的颜色的图像(包括黑白文本),JPEG永远不是一个好的选择。JPEG只对典型的照片,即具有许多不同颜色和阴影的照片“好用”...

如果你使用PNG作为输出格式,你的问题很可能会完全得到解决。以下图像演示了这一点。我使用与你最后一个示例命令相同的参数生成它,但输出格式为PNG:

textcleaner -g -e normalize -f 30 -o 12 -s 2 \
    http://i.stack.imgur.com/ficx7.jpg       \
    out.png

PNG输出而非JPEG

这是输出的类似放大图:

放大的PNG

如果您调整textcleaner脚本的参数,很可能可以进一步改善输出。但那就是的工作了……:-)


1
非常感谢,仅仅将JPG转换为PNG对我来说已经有了很大的改善,非常感谢,现在我的Tesseract脚本要好得多! - Simon C.

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接