如何使用C#提高OCR前的PDF质量

5
我正在创建一个监控文件夹扫描文件的服务。一旦有新文件,该服务会将其转换为可读取的PDF格式。在此过程中,该服务还会查找条形码,并提取其中的文本信息。然后,将带有文本的文件存储到我们软件的数据库中,其位置基于条形码。
现在,我们使用Atalasoft的SDK进行OCR处理(http://www.atalasoft.com/)。该SDK还包括条形码识别器。
但是,转换后的文本仍然存在一些错误。(我已经使用其他OCR程序进行了测试,但Atalasoft效果不错。)我正在寻找一些软件(SDK套件),可以提高PDF文档的质量以便进行OCR处理。
我已经测试了Kofax VRS Elite(http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西,但可以使用某种SDK套件实施服务。
是否有人曾经做过这样的事情或遇到过类似的问题?谢谢!
1个回答

2
您可以尝试另一种方法:
看看是否可以配置扫描仪直接扫描到PDF并实时进行OCR。Lexmark扫描仪可以做到这一点。这将创建具有可选择和可搜索文本的PDF。然后,可以使用PDF阅读库提取它。
或者您可能想要查看http://www.abbyy.com/,看看是否能获得更好的结果。
如果这些不是好的选择,您可能需要系统地分解问题:
1. 扫描图像的质量是否是问题?如果是,则必须首先解决此问题。您的OCR解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是否是OCR软件的问题?拿一个非常易读的文档,看看OCR软件是否会出错。如果是这样,那么您就知道必须找到更好的OCR软件。
3. 如果您的文档质量良好,并且您的OCR软件在解密易读文档方面成功率很高,则您可能需要查看无法工作的异常情况,并逐个处理。
如果文档上的污迹和背景图像是问题的原因,则可以寻找避免这种情况的方法,或使用公开API的图像处理软件进行清理。

1
嗨,谢谢你的答复。但购买其他扫描仪的选项并不可行。我已经运行了一些abbyy的测试,质量与atalasoft的OCR相当。还有其他建议吗? - Anthony Claeys

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接