PDF文档中带有OCR文本，如何隐藏现有PDF文档中的OCR文本。

Question

3

我有几个经过光学字符识别处理的PDF文件（不是我处理的）。它们包含扫描图像和OCR文本。在某些阅读器（iPhone/iPad）中似乎正常工作，但在其他阅读器（macOS上的Preview.app）中会出现问题，使得阅读起来有些麻烦。

根据搜索结果，似乎文字和图像可能被错误地分层或者字体存在问题？我甚至不确定我是否使用了正确的词汇，因为我得到的大部分信息都没有用。

是否有可能使用ghostscript或其他工具批量修复这些文件呢？

下面是“错误”的渲染示例：

- meide

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- KenS · Accepted Answer

没有看到PDF文件（或查看器）的情况下很难确定问题所在，这也使得提出解决方案变得困难！

您可以通过Ghostscript将文件转换为pdfwrite设备，并使用-dFILTERTEXT开关来不处理文本。因此，生成的文档将不包含有问题的文本，但仍将包含图像。

当然，这样就无法搜索或突出显示。

您可以改用-dFILTERIMAGE，它会删除原始图像，留下文本。但是，原始文档中的任何非文本内容现在都将丢失。

通常的“最佳实践”是将文本以呈现模式3绘制，这不会留下标记。这使您可以查看原始图像，而OCR文本不会干扰。您使用的查看器可能未遵守文本呈现模式，这将是查看器中的一个（相当严重的）错误。最新版本的MacOS似乎在Quartz PDF渲染引擎中有一些严重的错误。

另一种方法是先绘制文本，然后将原始图像放在其上面，但这很难做对，我认为更可能是文本呈现模式的问题。

编辑 PDF文件首先绘制文本，然后在文本上方绘制图像。底层文本不应显示。 mkl在他的评论中是正确的。

正确的解决方法是修复错误渲染它的使用者。如我上面所提到的，最新版本的Quartz似乎存在一些相当严重的错误，您可以选择将其作为Apple的错误提出。

唯一的其他解决方案是通过某些东西来删除文本。 Ghostscript可以做到这一点，但有一些影响；首先，将不再能够从文档中搜索/复制/粘贴文本。其次，您需要运行相当复杂的命令行以防止解压缩的JPX图像被重新压缩为JPEG，这可能会导致受损的质量。最后，生成的文件大小将更大。