如何从单个PNG图像构建具有可搜索文本的PDF?

5

目前,我有一系列图像(PNG格式),并且对于每个图像,都有一个未格式化的文本版本。我想制作一个PDF文件,使每个图像成为PDF文件的一页,并将相应的文本附加到页面上,这样搜索某些单词会带您去包含该文本的页面,尽管文本从未直接显示出来。

这是一次性的工作,因此不必整齐或可扩展。我可以使用Linux系统上通常可用的任何语言或常见命令行工具。(我还有一个安装了Acrobat的Windows系统,但由于有近千张图像,因此手动操作无法完成。)


我的PDF经验基本上只限于查看它们,从打印对话框中选择“另存为PDF”,以及使用Acrobat进行默认选项的扫描。 - jade
1个回答

1

尝试的一个选项是使用Java和Apache-Fop生成PDF,但这可能比您想要做的更多工作。

您可以使用iText更好; 添加PNG到iText以生成PDF的示例

您需要确定如何生成一个Layer来放置您的可搜索文本; 我无法建议您如何执行此步骤。

这里是如何判断PDF是否包含文本的方法,这可能有助于您构建PDF。


使用FOP生成每页一个图像的PDF似乎相当简单。 XSL-FO是否有一种包含可搜索但不可见文本的方法?或者我可以使用一些技巧,例如将文本隐藏在图像后面等等? - jade
经过搜索并对比 Fop 和 Layers,更新建议使用 iText 作为更好的选择。我之前没有用 iText 生成过 Layers,但我猜这就是你想要的来隐藏可搜索的文本。相较于 Fop,使用 iText 可能会更容易些。 - JoshDM
2
在PDF中,“将图像覆盖在文本上”非常容易,只需先将文本添加到页面内容中,然后再添加图像即可,没有任何魔法。另外,PDF还可以让您在不显示文本的模式下添加文本(仅使其可选、复制和粘贴等)。 - mkl
是的,但如何在Fop或iText中实现,那就是下一步了。 - JoshDM

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接