将PDF转换为HTML

20

如何将PDF文档转换为可在浏览器中查看的HTML文件是最佳解决方案?该网站包含多个PDF文档,访问者可以单击“以HTML格式查看”,应在屏幕上以HTML文件的形式查看。

标准网站运行PHP,Linux,Apache。


你有研究过pdfjs吗?http://mozilla.github.io/pdf.js/ - Michael W
4个回答

6

pdftohtml的功能很好:快速、稳定,但是HTML的结果最多只能算丑陋。我已经在一个拥有许多工作简历的网站上使用了它相当长的一段时间。

然而,它是提取文本内容的好解决方案。

我建议尝试scribd API或Google应用文档API。谷歌在显示和转换PDF文件方面做得非常出色。


4
科学论文中出现这样的东西看起来令人难以置信:https://github.com/coolwanglu/pdf2htmlEX - JDonner
@JDonner 一个需要注意的地方是,生成的HTML代码难以阅读和编辑,并且占用了大量空间——至少对于我测试的PDF文件来说(2.8 MiB的HTML对应674.5 KiB的PDF)。这种巨大的大小使其特别不适合用于服务,并且会影响阅读体验(滑动缓慢等)。 - Ruslan
@JDonner,结果看起来不错,但HTML基本上是无用的——它会将单词分开,将每个部分封装在各种标签中,提取每个大小(相同字体)的字体并嵌入其中,使文件变得非常庞大(正如Ruslan所说)。你最好将PDF转换为PNG图像,而不是使用pdf2htmlEX。 - ierdna

4

您是否考虑将PDF数据保存在数据库中,然后根据访问者的选择动态创建PDF或HTML页面呢?


4
如果您在托管提供程序处有命令行访问权限,则可以使用poppler_utils软件包中的pdftohtml实用程序。这很容易使用,尚未从PHP内部调用它,但它应该可以正常工作。请参考http://poppler.freedesktop.org/

pdftohtml不能保留样式。 - ierdna

1

1
是的,需要一年3000美元的许可证... - Warface

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接