CAM::PDF模块非常有用,可用于提取文本并保留一些关于文本来源的信息。它安装了/usr/local/bin/getpdftext.pl,该脚本演示了简单的提取操作。不过,CAM::PDF只能读取完全有效的PDF文件。 如果你正在处理格式不正确的PDF文件,可能需要一个更宽容的解析器,例如pdftotext。它将foo.pdf转储到foo.txt,然后您可以将其读入Perl中。