有没有Java库可以将文档从PDF转换为HTML？

Question

有没有Java库可以将文档从PDF转换为HTML？

6

优先选择开源实现。

- dr0ne

3

我也希望知道这个问题的解决方案。PDFBox能够实现（http://java.dzone.com/articles/converting-pdf-html-using?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+javalobby%2Ffrontpage+%28Javalobby+%2F+Java+Zone%29），但功能有限。 - Alp

3个回答

1

尝试使用来自Apache基金会的PDFBox。

- dacracot

1

我知道的只有需要付费的。

BFO
JPedal

- Kiki

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- PhiLho · Accepted Answer

显然，这不是一项容易的任务，PDF格式比HTML更加丰富（而且你还必须提取图片并链接它们等等）。
简单的文本提取要简单得多（尽管不是微不足道的...）。
我在您的问题侧边栏中看到一个类似的问题：Converting PDF to HTML with Python，其中指向了一个库（poppler，据说是用C++编写的，也许可以通过JNI/JNA访问）以及一个相关问题，该问题提供了更多答案。