PDF是如何存储文本的？

Question

12

我尝试更好地了解PDF是如何存储文本的。一般而言，当从MS Word（或我的情况下SQL Server Reporting Services）这样的应用程序创建PDF时，PDF如何存储文本？我希望在这种特定情况下生成的文档不会像从图像创建原始PDF文档那样进行OCR处理。

为了更加详细地了解PDF的文本提取器是如何工作的，我最初的理解是它存储了如何将“图像”绘制到页面或打印机上的（PostScript）指令，并且文档本身并不包含实际文本。随后，我想一个文本提取器可能会反向工程这些指令以生成PDF本来会生成的文本。虽然我对此并不自信。

- Kenneth K.

5

我很好奇：这个问题为什么“不相关”？ - Kenneth K.

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joni · Accepted Answer

PDF包含多种不同类型的对象，不仅仅是矢量图形或光栅绘图指令。文本特别通过文本元素来表示。这些包括一串字符，应使用特定字体在某些位置绘制。

从PDF中提取文本可能是一个复杂的过程，因为文件格式是面向页面布局的。一个文本元素可以是整个段落，也可以是单个字符。即使是一个单词，如果混合了不同字体，则可能由几个文本元素组成。此外，字符不一定是以标准编码（例如Unicode）编码的。它们可能以特定于特定字体的方式进行编码。

如果您有幸处理Tagged PDF文件，例如PDF/A或PDF/UA，那么文本提取可能会更加容易，因为文本跨度被标识为这样，并且定义了到Unicode字符的映射。