以下提供几种替代 pdftohtml/xpdf 的方法:
对于PDF转HTML的转换,pdf2htmlEX似乎是一个相当不错的工具(从所有的例子/样品中看):
<p>
,但PDF纯粹是表现形式。HTML文档会说:“这是一个段落。这是一张图片。”并且呈现效果是从中解释出来的。而PDF文档基本上会说:“这个字符应该在位置X,Y渲染。下一个字符将在位置...”等等。因此,即使构建段落也可能很困难。使用 pdftohtml 一段时间后,对 HTML 版本的显示结果不满意,正在考虑使用 Google 文档 API 或 Scribd API(目前我最喜欢的)
最终,我可能会使用pdftohtml来提取pdf文件的文本内容,并使用Scribd API在用户页面上显示原始文件。尝试使用poppler或xpdf。但需要一些魔法和绑定。
我刚刚发布了一个Ruby宝石,用于通过poyconverter或jodconverter无头转换Open Office文档。它还集成了其他几个库(pdftools和netpbm),以从PDF文件中提取文本和图像。
您可以在这里找到它 https://github.com/itkin/proselytism.git
欢迎添加您自己的转换器并向我报告一些问题