从PDF转换为HTML

26

有没有一个可以将PDF文件作为输入并生成HTML文件的.dll库?我想要进行从PDF到HTML的转换。我的同事说,一步一步地从PDF中获取文本/字体/图像/边距/链接等内容,然后创建具有相同内容的新HTML文件非常困难,几乎不可能。因此,我在考虑是否有一些dll库可以供我参考来完成这个任务?


肯定很复杂,但你为什么想要它呢? - Thanh Nguyen
有几个供应商提供的HTML转PDF转换工具,但我没有看到任何PDF转HTML的工具。由于我不知道完整版本是否可以导出HTML,您应该首先检查这一点并查看结果。然后,您可以考虑实现一些批处理作业,使用Acrobat来完成它。只是一个想法... - YvesR
1
搜索“将pdf转换为html”将收集许多可能的解决方案。SO不是产品建议的好地方,因此投票关闭为“不具有建设性”。 - Richard
请参考以下帖子,了解使用iTextSharp进行文本提取的基础知识:https://dev59.com/Q2w15IYBdhLWcg3wA3GT - Chris Haas
14
这些极端狂热者会毁掉SO...我认为这个问题应该被标记为重复,因为已经有人问过几次了,但不够有建设性?真的吗?在SO上有成千上万个类似甚至更差的问题被认为是有效的。你们现在要关闭所有请求解决问题X的库吗? - yms
显示剩余2条评论
3个回答

12

编写一个程序来完成这个任务绝对不是件容易的事情。如果你找不到任何免费的.NET库可以实现(至少我没有找到),那么我建议下载这个并通过程序调用它来获取HTML。

如果你有时间,或者PDFToHtml无法满足你的要求,你可以使用iText自己编写程序。它是一个非常成熟的免费PDF库。我过去曾经用它来操作PDF文件(合并、创建等)。

更新

正如Quandary在评论中指出的那样,PDFSharp库提供了相对宽松的许可证(MIT许可证),而iText则提供商业或AGPL许可证。在选择库时请注意这一点。我自己并没有使用过PDFSharp库,也不知道它们在功能上有什么区别。


1
如果有人这样做,最好使用pdfsharp,它拥有更好的许可证。 - Stefan Steiger
12
在PDFSharp的常见问题解答中,他们表示他们的库不能将PDF转换为HTML并且没有计划支持此功能。http://www.pdfsharp.net/wiki/pdfsharpfaq.ashx#Can_I_use_PDFsharp_to_convert_PDF_to_Word_RTF_HTML_11 - The Muffin Man

8
您可以下载这个免费工具:PDFToHTML
然后在您的程序中,只需分叉一个新进程并运行可执行文件,将PDF文件传递给它。我刚刚测试了一下,似乎可以正常工作。

6

我们也是。此外,最近出现了产品Spire,提供类似于Aspose的工具。 - Uwe Keim
2
Aspose并不像广告中所说的那样易于使用,生成的HTML质量也很差。此外,如果您需要进行内存转换而非文件转换,则需要先将其转换为doc,然后再将其转换为html。 - LemonCool

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接