提高低质量扫描图像的OCR质量

3
经过自动校正和裁剪后,我得到了以下图像:

enter image description here

我需要对这张图片进行OCR。目前,ABBYY Engine SDK 11 For Linux 的结果不是很好:
IMerasers - www,raiyirnieti'^C9,co;i,ni                                                          
Clariiis: Jv ocl'ca :PO 9ox 30998, S&M Luke C6y, UT 84":30                                       
Guslomei: Service:                                 952-945-800G or 800-952-3^55                  
Jieaf5ftg: impaired;                               VA                                            
Pharmaaisto:                                       853-364-6331                                  
Medica Pfovic.&s:                                  80 ;j-2i5S-55"',2 o ■ www.rfledica.cori       
^ofricai'or Services:                              86i-7<5-9920                                  
t1 ^edHoaiihca'Q Provicors; 6 77-842420 or                                                       
                                               ; mffiffiF********                               
Sviet iea Be tsvio a rieofift:                                                                  
Mocica Ca-linK frwso ,'ne: 430-962-9*9?    

这是原始图像。有什么自动图像预处理技术可以应用于该图像以提高OCR质量?或者说,无法提高该图像的OCR质量吗?目前,我使用OpenCV和Leptonica库来预处理图像。

enter image description here


请上传您的原始输入图像?它是什么格式的?是PDF还是JPG或二进制压缩的TIFF?如果是PDF,您可以以更高的分辨率处理它,这将有助于处理。 - undefined
@fmw42 谢谢!是的,我的输入文件就是这个jpg。你说的重新扫描是指从这个文件还是从原始来源重新扫描?我所拥有的就是这个呈现的jpg文件,就只有这样了。你能否详细解释一下将原始扫描保存为PDF的好处? - undefined
1
从原始纸质副本以更高的密度重新扫描。当将其作为PDF进行扫描时,您可以在阅读PDF并转换为光栅图像时设置密度。这意味着您可以稍后从PDF中获得更高质量的光栅图像结果。无论哪种方式,以更高的密度进行扫描是最佳选择。大多数扫描仪都允许您在扫描时设置密度。 - undefined
谢谢你的回答!不幸的是,我对扫描文档没有任何影响,只能使用别人扫描的文档进行工作。有时候我需要从PDF文件中提取图像,以便预处理和OCR,所以非常感谢你提供的关于在PDF阅读和提取到光栅时可以设置的密度信息。我需要查看如何使用Java工具来实现它,例如像PdfBox这样的工具。 - undefined
1
最好尝试使用PDF扫描进行实验。有时从PDF中提取嵌入的图像效果更好。尝试使用convert -density 300 image.pdf result.png命令进行转换。如果效果还不错,可以将分辨率调得更高再试试。由于有损压缩的原因,最好不要保存为JPG格式,而是保存为PNG或TIFF格式。 - undefined
显示剩余2条评论
2个回答

2
这个图像已经在相对较低的分辨率和噪声下进行了二值化处理。
你可以通过以下方法稍微改进它:
  • 将分辨率增加一倍或两倍(是否使用双线性插值都没多大区别);

  • 平滑处理(小型高斯滤波器、中值滤波器等);

  • 再次进行二值化处理。

但是,已经造成的损坏很难恢复。最可能的情况是,预处理会使结果变得更糟。

enter image description here


0

正如Yves所说,图像的质量相当低。尽管如此,您应该能够改善您的结果:

  • 尝试调整图像大小。一些OCR期望具有特定尺寸的字母
  • 尝试其他OCR,例如tesseract
  • 如果您必须阅读许多具有相同字体的文档,则可以使用该字体训练OCR

在我看来,调整大小只会增加损坏程度。一些字符已经无法修复地改变了。使用在相同条件下获得的字符进行训练是一个好主意。 - user1196549
谢谢,我需要弄清楚是否可以训练ABBYY Engine SDK用于特定字体,如果可以的话,它会对其他文档的OCR流程产生什么影响。 - undefined

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接