Ubuntu的PDF元数据查看器/标签编辑器

关于Ubuntu上最好的PDF阅读器,有很多问题和答案,但我想解析PDF文件并了解PDF的详细信息,比如在给定的PDF文件中可用的图像、字体和链接。
是否有任何可用的PDF元数据查看器/标签编辑器?
7个回答

  1. 查看名为Example.pdf的文件的PDF元数据:

    pdfinfo Example.pdf  
    
  2. 使用终端中的nano编辑器编辑现有的元数据:

    pdftk Example.pdf dump_data output Metadata-output.txt
    nano Metadata-output.txt  
    
  3. 更新元数据:

    pdftk Example.pdf update_info Metadata-output.txt output Example-new.pdf
    

Nano编辑器键盘快捷键
使用键盘组合 Ctrl + O,然后按下 Enter 将文件保存到当前位置。
使用键盘组合 Ctrl + X 退出nano。


CLI解决方案 另一个值得一看的实用工具是exiftool。exiftool相对于pdfinfo的优势在于它支持更多的元数据类型(例如XMP标签)。
以下是一个示例命令,它将打印出所有可用的元信息(-a),并按组进行排序(-G1):
exiftool -a -G1 "$File"

支持的PDF相关标签概览:

您可以在Ubuntu上安装exiftool,方法如下:

sudo apt-get install libimage-exiftool-perl

图形用户界面解决方案

如果你正在寻找一个GUI PDF元数据查看器/编辑器,你可以试试PDFMtEd。这是我为使用exiftool管理PDF元数据而编写的一套图形工具:

enter image description here

enter image description here


"最好的"答案实际上取决于您想要多少细节以及您希望观看器有多稳定。在Linux中存在许多用于查看甚至编辑PostScript和PDF文件的软件;所有这些软件似乎都已从当前的Ubuntu软件仓库中删除(可能是由于稳定性问题)。
目前,我建议尝试使用pdfedit。如果您使用的是Quantal或更早版本,可以通过以下方式进行安装:
sudo apt-get install pdfedit

对于较新的版本,您需要从项目页面下载它,解压并自行编译。

我不需要一个查看器。我需要一个解析器,可以从PDF文件中提取详细信息,比如文件中的链接、可用的图像、文件索引等等。 - Sahil Grover
抱歉,我把pdftk和pdfedit搞混了,因为他们从软件库中移除了pdfedit。 - virtualxtc

为了详细说明使用pdftk编辑的方法,这种方法很好,因为它会显示出所有被设置的内容,并且同时允许您更改任何您喜欢的内容。下面是一个脚本(适用于您的.bashrc文件或其他别名文件),可以通过一个命令完成这个过程。该脚本会创建一个要编辑的文件的新版本,使用您喜欢的编辑器打开元数据文件,然后实施您的更改,并将修改后的PDF文件的创建/修改时间设置为与原始文件相同。使用时,在重新加载.bashrc文件后,只需输入以下命令:
editPDFmetadata myfile.pdf
以下是别名:
editPDFmetadata() {
OUTPUT="${1}-new.pdf"
METADATA="tmp${1}-report.txt"
pdftk ${1} dump_data output $METADATA
$EDITOR $METADATA
pdftk ${1} update_info $METADATA  output $OUTPUT
touch -r ${1} ${OUTPUT}
}

只需将上述定义放入您的主文件夹中的.bashrc文件中,然后打开一个新的终端,它就可以使用了。

sudo apt-get install libimage-exiftool-perl

可以通过以下命令完全删除元数据

exiftool -all:all= 文件名


只需查看PDF元数据,您可以使用pdfly。它在内部使用pypdf(我是这两个项目的维护者)。

安装

pdfly是一个Python包:

pip install pdfly

使用方法

pdfly meta your-file.pdf

给出:

enter image description here


另一个图形用户界面(GUI)解决方案是PaperClip,它可以在软件中心(Debian,Ubuntu)中找到。它具有简约而用户友好的界面。该应用程序还非常轻量级。

enter image description here enter image description here