有没有Java库可以将文档从PDF转换为HTML?

3个回答

2
显然,这不是一项容易的任务,PDF格式比HTML更加丰富(而且你还必须提取图片并链接它们等等)。
简单的文本提取要简单得多(尽管不是微不足道的...)。
我在您的问题侧边栏中看到一个类似的问题:Converting PDF to HTML with Python,其中指向了一个库(poppler,据说是用C++编写的,也许可以通过JNI/JNA访问)以及一个相关问题,该问题提供了更多答案。

1
尝试使用来自Apache基金会的PDFBox

1

我知道的只有需要付费的。

BFO
JPedal


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接