在命令行上导出PDF页面标签

Question

在命令行上导出PDF页面标签

12

我希望能导出一些PDF文档中存储的页面标签以便于解析。我知道可以使用qpdf将PDF转换后再深入挖掘，但这似乎有点过度。是否没有命令行工具可以简单地打印每个页面的页面标签（或与其他元数据一起）？我知道PDFSpy会导出标签，但300美元不是我的选择，最好的解决方案应该是免费的。

- grovel

2个回答

3

我编写了一个基于Poppler的小型命令行实用程序，可以执行此任务：https://github.com/HeimMatthias/pdfpagelabels 免责声明: 我是原帖作者，但使用不同的帐户创建了原始帖子。多年来，我一直在我的实现中成功地使用通过pdftk（在上面的评论中列出）的解决方案。然而，去年我们重新从头开始实现系统，我们有很多情况下pdf-tk输出无法被我们的实现解析。

新的命令行工具遵循只做一件事情，但做到最好的哲学，并简单地打印所有或选定页面的页面标签pdf文件。如果有人发现它有用，并在这里看到它，那就更好了。

- mheim

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Kurt Pfeifle · Accepted Answer

简短回答：
我不知道有任何（免费）工具可以“简单打印”每个页面的页面标签。

此外，使用像qpdf或具有等效功能的工具，您将无法避免扩展压缩对象和对象流。

长回答：
没有这样的工具，因为这些是关于页面标签的唯一可靠的信息：

每个PDF文档必须包含一个根对象。
该根对象必须是/Type /Catalog。
文档的尾部将显示在哪里找到该对象，使用键/Root后跟间接对象号引用。
如果 PDF文档使用非标准页面标签，则文档根对象必须有一个名为/PageLabels的条目。

在这里停止相对容易。因为/PageLabels键引用的对象可能包含在压缩的对象流中。这意味着您必须扩展该对象流。

如果您真的成功地获得了ASCII格式的页面标签描述，您会发现它不是易于解析的平面列表（如dictionary）：它是一棵数字树。

我不会详细介绍这些复杂性，因为需要一个非常长的文章来描述所有可能的变化。您最好直接在官方ISO PDF-1.7规范中阅读。

但是，我将为您提供一个ASCII PDF代码示例：

213 0 obj
  << /Type /Catalog
     /PageLabels 
        << 
           /Nums 
                 [ 
                   0 <<           % start labeling from page no. 1
                       /S /r      % label with lowercase roman numbers
                     >> 
                   7 <<           % start new labeling from page no. 8
                       /S /D      % label with standard decimal numbers
                     >> 
                   11 <<          % start labeling page no. 12
                       /S /D      % label with decimal numbers...
                       /P (ABCD-) %   ...but using label prefix 'ABCD-'...
                       /St 3      %   ...followed by '3' as the start decimal.
                     >>
                  ]
        >>
     %%...........................
     %%...more root object keys...
     %%........................... 
  >>
endobj

以上示例将以如下方式标记页面编号1, 2, 3, ... (last):

i
ii
iii
iv
v
vi
1
2
3
4
ABCD-3
ABCD-4
ABCD-5
ABCD-6
...and so on until last page...

正如您所看到的，PDF方法标记页面（将页面编号映射到页面名称）是完全不直观的。只有通过研究PDF规范才能理解它。