我尝试更好地了解PDF是如何存储文本的。一般而言,当从MS Word(或我的情况下SQL Server Reporting Services)这样的应用程序创建PDF时,PDF如何存储文本?我希望在这种特定情况下生成的文档不会像从图像创建原始PDF文档那样进行OCR处理。
为了更加详细地了解PDF的文本提取器是如何工作的,我最初的理解是它存储了如何将“图像”绘制到页面或打印机上的(PostScript)指令,并且文档本身并不包含实际文本。随后,我想一个文本提取器可能会反向工程这些指令以生成PDF本来会生成的文本。虽然我对此并不自信。
为了更加详细地了解PDF的文本提取器是如何工作的,我最初的理解是它存储了如何将“图像”绘制到页面或打印机上的(PostScript)指令,并且文档本身并不包含实际文本。随后,我想一个文本提取器可能会反向工程这些指令以生成PDF本来会生成的文本。虽然我对此并不自信。