免费开源的Java库，可将PDF转换为图像、HTML，提取图像和文字。

Question

3

我需要一个Java库来执行以下任务：1）将Pdf页面转换为图像；2）从PDF页面提取HTML文本以及它们在页面上的位置；3）从PDF页面提取图像。我已经尝试过以下库：

请问是否有更好的解决方案？

- Yashpal Singla

我也对这样的Java库很感兴趣。目前我们在Linux系统上使用http://en.wikipedia.org/wiki/Poppler_(software)来完成类似的任务。 - Udo Klimaschewski

@YashpalSingla，我相信itext可以做到这一点。例如-如何从pdf中提取文本：http://itextpdf.com/examples/iia.php?id=275 - user1516873

谢谢 @user1516873，我会检查两个链接。 - Yashpal Singla

我在Ubuntu中使用pdfToHTML从PDF中获取HTML，然后使用cutycapt获取图像。然后我使用JSoup解析HTML以提取带有样式和位置的文本。输出符合我的要求。 - Yashpal Singla

@user1516873，iText是一款付费产品，单个开发者的许可证价格超过2千美元。 - deathrace

显示剩余5条评论

3个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Stewart · Answer 1

你尝试过JOD Converter吗？它是一个Java API，可以连接到自启动的Open Office服务器。

为了查看它是否支持你需要的格式转换，只需安装Open Office，打开一个文件，然后尝试“另存为”所需的格式，以查看是否支持。

- Yashpal Singla · Answer 2

我已经按照以下步骤解决了Ubuntu环境中的问题：

第一步）使用pdftohtml库将pdf转换为html

第二步）使用Jsoup从第一步中的html中提取带有样式和位置的文本

第三步）使用CutyCapt生成HTML的快照（如果需要）

我们还可以使用pdftoppm命令直接从pdf中提取图像

- Neeraj · Answer 3

你可以使用PDFBox完成上述所有任务。但是要获取位置，没有API。下载最新的PDFBox。请访问以下链接找到解决方案。

请查看this link。在那里，您可以看到getTextPos()函数。getTextPos().getXPosition()，getTextPos().getYPosition() 将给出X和Y坐标。