我有一组图像,我在上面运行OCR应用程序。这个过程会生成一个带有字符偏移量的XML文件。然后我使用Acrobat 9将图像转换为PDF。现在,我想将XML文件信息作为不可见文本层添加到PDF中,以实现可搜索的PDF。有没有简单而免费的方法?
一些细节:
- 我不想使用Acrobat的OCR功能; - OCR过程会生成一个XML文件,其中包含如下元素: ``` ```
更新:也许可以通过不同的方式来实现我的目标。假设已经从一组图像生成了PDF文件,并且已经包含了OCR文本。是否可能(也许是通过编程)仅访问每个页面的图像,处理它(例如将其转换为单色),并将其保存回PDF文件?如果是,则OCR文本不会丢失。
[我应该将此更新放入单独的问题中吗?]
一些细节:
- 我不想使用Acrobat的OCR功能; - OCR过程会生成一个XML文件,其中包含如下元素: ``` ```
更新:也许可以通过不同的方式来实现我的目标。假设已经从一组图像生成了PDF文件,并且已经包含了OCR文本。是否可能(也许是通过编程)仅访问每个页面的图像,处理它(例如将其转换为单色),并将其保存回PDF文件?如果是,则OCR文本不会丢失。
[我应该将此更新放入单独的问题中吗?]