PDF文档中带有OCR文本,如何隐藏现有PDF文档中的OCR文本。

3
我有几个经过光学字符识别处理的PDF文件(不是我处理的)。它们包含扫描图像和OCR文本。在某些阅读器(iPhone/iPad)中似乎正常工作,但在其他阅读器(macOS上的Preview.app)中会出现问题,使得阅读起来有些麻烦。
根据搜索结果,似乎文字和图像可能被错误地分层或者字体存在问题?我甚至不确定我是否使用了正确的词汇,因为我得到的大部分信息都没有用。
是否有可能使用ghostscript或其他工具批量修复这些文件呢?
下面是“错误”的渲染示例: example
1个回答

4
没有看到PDF文件(或查看器)的情况下很难确定问题所在,这也使得提出解决方案变得困难!
您可以通过Ghostscript将文件转换为pdfwrite设备,并使用-dFILTERTEXT开关来不处理文本。因此,生成的文档将不包含有问题的文本,但仍将包含图像。
当然,这样就无法搜索或突出显示。
您可以改用-dFILTERIMAGE,它会删除原始图像,留下文本。但是,原始文档中的任何非文本内容现在都将丢失。
通常的“最佳实践”是将文本以呈现模式3绘制,这不会留下标记。这使您可以查看原始图像,而OCR文本不会干扰。您使用的查看器可能未遵守文本呈现模式,这将是查看器中的一个(相当严重的)错误。最新版本的MacOS似乎在Quartz PDF渲染引擎中有一些严重的错误。
另一种方法是先绘制文本,然后将原始图像放在其上面,但这很难做对,我认为更可能是文本呈现模式的问题。
编辑 PDF文件首先绘制文本,然后在文本上方绘制图像。底层文本不应显示。 mkl在他的评论中是正确的。
正确的解决方法是修复错误渲染它的使用者。如我上面所提到的,最新版本的Quartz似乎存在一些相当严重的错误,您可以选择将其作为Apple的错误提出。
唯一的其他解决方案是通过某些东西来删除文本。 Ghostscript可以做到这一点,但有一些影响;首先,将不再能够从文档中搜索/复制/粘贴文本。其次,您需要运行相当复杂的命令行以防止解压缩的JPX图像被重新压缩为JPEG,这可能会导致受损的质量。最后,生成的文件大小将更大。

感谢回复。我截图的PDF可以在这里找到(http://dis-danmark.dk/bibliotek/905046.pdf)。有没有工具可以用来检查PDF中使用的呈现模式? - meide
看起来使用创建文件的ABBYY FineReader 12采用图像/文本分层方法。它们能否通过编程重新排列? - meide
我怀疑改变PDF文件是否真的有帮助 - 任何显示给定PDF中文字的PDF阅读器都存在严重问题,而试图在这种有严重问题的软件中编程通常是徒劳无功的。 - mkl

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接