如何将PDF转换为干净格式的HTML?

5
有没有一个网站或软件能够干净地将PDF文件转换成HTML文档,而不会有很多无用的HTML代码呢?

请参见 https://github.com/fmalina/transcript。 - fmalina
2个回答

3
挑战在于PDF是一种布局语言,而HTML则是一种语义化语言,这两者相反。这意味着,在将PDF转换为HTML时,为了保持可读性,必须通过定位单个单词(有时候还要定位字母)来强制进行布局,语义结构通常会混乱或丢失,因此会出现乱码。
您可以通过打开几乎任何代表文本文档的PDF文件并尝试(通过肉眼)查找文本中的单词或段落来了解问题的实质。
与之相比,HTML文档通常很容易从源代码中阅读。

我尝试通过规范化视觉布局约定来解决这个问题,以达到语义HTML输出。该过程的第一步是使用PDF2HTMLEx将其转换为视觉HTML,然后使用transcript.py https://github.com/fmalina/transcript将其转录为语义HTML。 - fmalina

0

HTML乱码通常是由PDF文件本身引起的,而不是用于转换的软件。您可以使用任何数量的软件包将PDF转换为HTML。一些选择包括PDF MinerPDFTOHTML,我相信还有PDFTK。无论是否会出现任何HTML乱码都没有明确定义。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接