目前,我有一系列图像(PNG格式),并且对于每个图像,都有一个未格式化的文本版本。我想制作一个PDF文件,使每个图像成为PDF文件的一页,并将相应的文本附加到页面上,这样搜索某些单词会带您去包含该文本的页面,尽管文本从未直接显示出来。
这是一次性的工作,因此不必整齐或可扩展。我可以使用Linux系统上通常可用的任何语言或常见命令行工具。(我还有一个安装了Acrobat的Windows系统,但由于有近千张图像,因此手动操作无法完成。)
目前,我有一系列图像(PNG格式),并且对于每个图像,都有一个未格式化的文本版本。我想制作一个PDF文件,使每个图像成为PDF文件的一页,并将相应的文本附加到页面上,这样搜索某些单词会带您去包含该文本的页面,尽管文本从未直接显示出来。
这是一次性的工作,因此不必整齐或可扩展。我可以使用Linux系统上通常可用的任何语言或常见命令行工具。(我还有一个安装了Acrobat的Windows系统,但由于有近千张图像,因此手动操作无法完成。)
尝试的一个选项是使用Java和Apache-Fop生成PDF,但这可能比您想要做的更多工作。
您可以使用iText更好; 添加PNG到iText以生成PDF的示例
您需要确定如何生成一个Layer
来放置您的可搜索文本; 我无法建议您如何执行此步骤。
这里是如何判断PDF是否包含文本的方法,这可能有助于您构建PDF。