OCR处理前的图像预处理

3

我的当前项目涉及将pdf中的文本转录成文本文件,我首先尝试将图像文件直接放入OCR程序(tesseract)中,但效果不佳。原始图像文件是旧的报纸,基本上有一些背景噪音,我相信tesseract会遇到问题。因此,我正在尝试在将其输入tesseract之前使用一些图像预处理。是否有适合这种情况的开源图像预处理引擎的建议?甚至更赞赏如何使用它的指示!

3个回答

5
我从未听说过针对此目的的“图像预处理引擎”,但您可以查看OpenCV(开源计算机视觉库)并实现自己的“预处理引擎”。OpenCV是一个计算机视觉库,提供许多功能来执行图像处理。
您可能想要尝试作为预处理步骤的一件有趣的事情是将阈值应用于图像以消除噪声和杂物。无论如何,我在this thread中谈到了这种东西。

4

像@karlphillip所说,我非常怀疑是否有一个现成的预处理引擎适用于您的目的,因为预处理技术因所需结果而异。

一些清理噪声图像文本的常见方法包括: 1. 自适应阈值(Sauvola或Niblack二值化) 2. 应用比文本稍大的中值滤波器来获取背景图像,然后从原始图像中减去背景(以消除更大的噪声,例如皱纹、污渍、手写笔记等)。

OpenCV具有这些过滤器/二值化方法的实现。如果您可以访问已发表的文献,那么关于噪声文档的二值化工作相当多。


那么,一旦我学会如何使用OpenCV,我就可以使用那些实现的方法来过滤文档图像吗? - Sardonic
看起来我错了。OpenCV没有Suvola或Niblack实现(尽管有一个自适应阈值函数可能会产生类似的结果)。它确实具有Otsu二值化,如果整个图像的光照是一致的,那么这可能适合您。所以,回答您的问题,是的。 - Noremac

0

看看ScanTailor吧。它具有相当令人印象深刻的预处理功能,并且是开源的。


1
旋转、校正和页面分割并没有给我留下深刻的印象。OCR还有很多事情要做,特别是将彩色图像转换为实际的黑白图像是重要的一步。 - Elmue
ScanTailor项目已不再维护,因此scantailor.sourceforge.net和scantailor.org域名已不可用。您仍然可以在此处找到存档项目 - D. S.

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接