如何将PDF转换为干净格式的HTML？

Question

5

有没有一个网站或软件能够干净地将PDF文件转换成HTML文档，而不会有很多无用的HTML代码呢？

- Noah R

请参见 https://github.com/fmalina/transcript。 - fmalina

2个回答

0

HTML乱码通常是由PDF文件本身引起的，而不是用于转换的软件。您可以使用任何数量的软件包将PDF转换为HTML。一些选择包括PDF Miner，PDFTOHTML，我相信还有PDFTK。无论是否会出现任何HTML乱码都没有明确定义。

- TARehman

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alex Brown · Accepted Answer

挑战在于PDF是一种布局语言，而HTML则是一种语义化语言，这两者相反。这意味着，在将PDF转换为HTML时，为了保持可读性，必须通过定位单个单词（有时候还要定位字母）来强制进行布局，语义结构通常会混乱或丢失，因此会出现乱码。

您可以通过打开几乎任何代表文本文档的PDF文件并尝试（通过肉眼）查找文本中的单词或段落来了解问题的实质。

与之相比，HTML文档通常很容易从源代码中阅读。