Apache Tika 1.6可以从PDF文档中提取内嵌的图片。然而,我一直在努力让它工作。
我的使用场景是,我想要一些代码,能够从任何文档中(不一定是PDF)分别提取内容和图片。然后将其传递到Apache UIMA流水线中。
我已经能够通过使用自定义解析器(基于AutoParser构建)从其他文件类型中提取图像,将文档转换为HTML,然后将图像单独保存出来。但是当我尝试使用PDF时,标签甚至没有出现在HTML中,更别说让我访问文件了。
有人能否建议我如何实现上述目标,最好还能提供一些使用Tika 1.6从PDF中提取内嵌图片的代码示例?
我的使用场景是,我想要一些代码,能够从任何文档中(不一定是PDF)分别提取内容和图片。然后将其传递到Apache UIMA流水线中。
我已经能够通过使用自定义解析器(基于AutoParser构建)从其他文件类型中提取图像,将文档转换为HTML,然后将图像单独保存出来。但是当我尝试使用PDF时,标签甚至没有出现在HTML中,更别说让我访问文件了。
有人能否建议我如何实现上述目标,最好还能提供一些使用Tika 1.6从PDF中提取内嵌图片的代码示例?
--extract
标志测试图像提取的Tika应用程序吗? - Gagravarr