挑战在于PDF是一种布局语言,而HTML则是一种语义化语言,这两者相反。这意味着,在将PDF转换为HTML时,为了保持可读性,必须通过定位单个单词(有时候还要定位字母)来强制进行布局,语义结构通常会混乱或丢失,因此会出现乱码。您可以通过打开几乎任何代表文本文档的PDF文件并尝试(通过肉眼)查找文本中的单词或段落来了解问题的实质。与之相比,HTML文档通常很容易从源代码中阅读。
HTML乱码通常是由PDF文件本身引起的,而不是用于转换的软件。您可以使用任何数量的软件包将PDF转换为HTML。一些选择包括PDF Miner,PDFTOHTML,我相信还有PDFTK。无论是否会出现任何HTML乱码都没有明确定义。