提高低质量扫描图像的OCR质量

Question

提高低质量扫描图像的OCR质量

opencvimage-processingimagemagickocrleptonica

3

经过自动校正和裁剪后，我得到了以下图像：

我需要对这张图片进行OCR。目前，ABBYY Engine SDK 11 For Linux 的结果不是很好：

IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?

这是原始图像。有什么自动图像预处理技术可以应用于该图像以提高OCR质量？或者说，无法提高该图像的OCR质量吗？目前，我使用OpenCV和Leptonica库来预处理图像。

- alexanoid

请上传您的原始输入图像？它是什么格式的？是PDF还是JPG或二进制压缩的TIFF？如果是PDF，您可以以更高的分辨率处理它，这将有助于处理。 - undefined

@fmw42 谢谢！是的，我的输入文件就是这个jpg。你说的重新扫描是指从这个文件还是从原始来源重新扫描？我所拥有的就是这个呈现的jpg文件，就只有这样了。你能否详细解释一下将原始扫描保存为PDF的好处？ - undefined

1

从原始纸质副本以更高的密度重新扫描。当将其作为PDF进行扫描时，您可以在阅读PDF并转换为光栅图像时设置密度。这意味着您可以稍后从PDF中获得更高质量的光栅图像结果。无论哪种方式，以更高的密度进行扫描是最佳选择。大多数扫描仪都允许您在扫描时设置密度。 - undefined

谢谢你的回答！不幸的是，我对扫描文档没有任何影响，只能使用别人扫描的文档进行工作。有时候我需要从PDF文件中提取图像，以便预处理和OCR，所以非常感谢你提供的关于在PDF阅读和提取到光栅时可以设置的密度信息。我需要查看如何使用Java工具来实现它，例如像PdfBox这样的工具。 - undefined

1

最好尝试使用PDF扫描进行实验。有时从PDF中提取嵌入的图像效果更好。尝试使用convert -density 300 image.pdf result.png命令进行转换。如果效果还不错，可以将分辨率调得更高再试试。由于有损压缩的原因，最好不要保存为JPG格式，而是保存为PNG或TIFF格式。 - undefined

显示剩余2条评论

2个回答

0

正如Yves所说，图像的质量相当低。尽管如此，您应该能够改善您的结果：

尝试调整图像大小。一些OCR期望具有特定尺寸的字母
尝试其他OCR，例如tesseract
如果您必须阅读许多具有相同字体的文档，则可以使用该字体训练OCR

- user2518618

在我看来，调整大小只会增加损坏程度。一些字符已经无法修复地改变了。使用在相同条件下获得的字符进行训练是一个好主意。 - user1196549

谢谢，我需要弄清楚是否可以训练ABBYY Engine SDK用于特定字体，如果可以的话，它会对其他文档的OCR流程产生什么影响。 - undefined

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user1196549 · Accepted Answer

这个图像已经在相对较低的分辨率和噪声下进行了二值化处理。

你可以通过以下方法稍微改进它：

将分辨率增加一倍或两倍（是否使用双线性插值都没多大区别）；
平滑处理（小型高斯滤波器、中值滤波器等）；
再次进行二值化处理。

但是，已经造成的损坏很难恢复。最可能的情况是，预处理会使结果变得更糟。