显然,这不是一项容易的任务,PDF格式比HTML更加丰富(而且你还必须提取图片并链接它们等等)。 简单的文本提取要简单得多(尽管不是微不足道的...)。 我在您的问题侧边栏中看到一个类似的问题:Converting PDF to HTML with Python,其中指向了一个库(poppler,据说是用C++编写的,也许可以通过JNI/JNA访问)以及一个相关问题,该问题提供了更多答案。