使用C#搜索OCR(可搜索)PDF

5

我需要从已经使用OCR程序转换的PDF中提取文本。我是否使用普通的PDFReader来获取文本,还是OCR转换后的PDF需要特殊处理?

2个回答

3
这取决于文本是如何转换的。许多OCR应用程序以某种方式将文本放置在图像下方。有些应用程序通过先放置文本然后再放置图像来实现此操作。有些则将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。 我之所以提到这一点,是因为我无法预测任何特定文本提取工具如何响应透明文本。理论上,它应该只给你文本(这就是Acrobat的做法)。但是否所有的文本提取工具都能做到这一点现实中很难说。

谢谢,这个答案是最接近我所问的(显然我没有正确表达我的问题)。OCR转换后的PDF与非OCR PDF在PDF格式方面没有任何区别。OCR过程只是扫描图像并将文本添加到PDF中。我使用Aspose提取文本,并希望确保如果给我的程序一个非OCR PDF,不会发生任何不良情况。 - enamrik

0

我的问题是,使用某些OCR软件转换的PDF文件是否与普通PDF文件处理方式有所不同。或者说,经过OCR转换的PDF文件只是一个具有更多文本而不是图像的PDF文件。我对PDF结构并不是很了解。 - enamrik

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接