如何使用C#提高OCR前的PDF质量

Question

如何使用C#提高OCR前的PDF质量

c#pdfocrreadable

5

我正在创建一个监控文件夹扫描文件的服务。一旦有新文件，该服务会将其转换为可读取的PDF格式。在此过程中，该服务还会查找条形码，并提取其中的文本信息。然后，将带有文本的文件存储到我们软件的数据库中，其位置基于条形码。

现在，我们使用Atalasoft的SDK进行OCR处理（http://www.atalasoft.com/）。该SDK还包括条形码识别器。

但是，转换后的文本仍然存在一些错误。（我已经使用其他OCR程序进行了测试，但Atalasoft效果不错。）我正在寻找一些软件（SDK套件），可以提高PDF文档的质量以便进行OCR处理。

我已经测试了Kofax VRS Elite（http://www.kofax.com/vrs-virtualrescan/）。我正在寻找类似的东西，但可以使用某种SDK套件实施服务。

是否有人曾经做过这样的事情或遇到过类似的问题？谢谢！

- Anthony Claeys

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jack · Accepted Answer

您可以尝试另一种方法：
看看是否可以配置扫描仪直接扫描到PDF并实时进行OCR。Lexmark扫描仪可以做到这一点。这将创建具有可选择和可搜索文本的PDF。然后，可以使用PDF阅读库提取它。

或者您可能想要查看http://www.abbyy.com/，看看是否能获得更好的结果。

如果这些不是好的选择，您可能需要系统地分解问题：
1. 扫描图像的质量是否是问题？如果是，则必须首先解决此问题。您的OCR解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是否是OCR软件的问题？拿一个非常易读的文档，看看OCR软件是否会出错。如果是这样，那么您就知道必须找到更好的OCR软件。
3. 如果您的文档质量良好，并且您的OCR软件在解密易读文档方面成功率很高，则您可能需要查看无法工作的异常情况，并逐个处理。

如果文档上的污迹和背景图像是问题的原因，则可以寻找避免这种情况的方法，或使用公开API的图像处理软件进行清理。