有哪些方法可以将PDF转换为HTML?可以是任何东西 - 在线服务、软件、库。(开源优先。在最后一种情况下,php或python将被优先选择。)它必须保持原始布局(包括页码、脚注等),保留图像(将它们合并成每页一个单独的背景图像是可以接受的)和保留链接。最好输出有效的XHTML并清理PDF特性,如连字,但如果需要某些后处理,我可以接受。最好具有干净、相对语义化的HTML输出。我找到的最接近的一个是zamzar.org,但它对链接进行了限制。(此外,由于编码问题,HTML输出是一堆丑陋的绝对定位的div,需要后处理。)