使用C#搜索OCR（可搜索）PDF

Question

使用C#搜索OCR（可搜索）PDF

pdfocr

5

我需要从已经使用OCR程序转换的PDF中提取文本。我是否使用普通的PDFReader来获取文本，还是OCR转换后的PDF需要特殊处理？

- enamrik

2个回答

0

有许多商业SDK可用于处理PDF文件。http://www.foxitsoftware.com/pdf/sdk/activex/ 这是Foxit的。

- VoronoiPotato

我的问题是，使用某些OCR软件转换的PDF文件是否与普通PDF文件处理方式有所不同。或者说，经过OCR转换的PDF文件只是一个具有更多文本而不是图像的PDF文件。我对PDF结构并不是很了解。 - enamrik

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- plinth · Accepted Answer

这取决于文本是如何转换的。许多OCR应用程序以某种方式将文本放置在图像下方。有些应用程序通过先放置文本然后再放置图像来实现此操作。有些则将图像放在底部，然后使用“不标记”传输模式将文本放在顶部。我之所以提到这一点，是因为我无法预测任何特定文本提取工具如何响应透明文本。理论上，它应该只给你文本（这就是Acrobat的做法）。但是否所有的文本提取工具都能做到这一点现实中很难说。