我有一批PDF文档的存储库,其中大部分文本都是用Comic Sans格式化的。我想将其更改为类似Arial的字体。原始字体已嵌入文档中。 我没有找到任何现有工具可以帮助我完成此操作(我在Linux上),我想知道是否可以通过编程实现。Python库是完美的,但任何编程语言的库都可以。
哪个库能够以最少的工作量替换字体?我应该使用API的哪些部分?
有一些商业工具可以做到这一点,其中之一是来自callas software的pdfToolbox (警告 - 我与这家公司有关联)。
然而,即使存在这种功能并且有时被使用,结果通常完全不理想,并且我没有看到许多上下文在更多特定文件上使用它。通常只有非常有限的成功。直到替换只能作为手动操作出现在我提到的工具中,而不能以自动模式运行。
根据这些文件的复杂程度,您可能会更成功地将所有文档中的文本提取到诸如RTF之类的东西中,进行所需的任何操作,然后重新生成PDF。听起来很绕,但我猜结果在大多数情况下会更好...