什么是提取PDF文本的最佳Perl模块？

Question

6

什么是从 PDF 中提取文本的最佳方法？

- user_78361084

类似的问题也许有用：https://dev59.com/wEXRa4cB1Zd3GeqPqlG3 - jpwco

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Phssthpok · Accepted Answer

CAM::PDF模块非常有用，可用于提取文本并保留一些关于文本来源的信息。它安装了/usr/local/bin/getpdftext.pl，该脚本演示了简单的提取操作。不过，CAM::PDF只能读取完全有效的PDF文件。

如果你正在处理格式不正确的PDF文件，可能需要一个更宽容的解析器，例如pdftotext。它将foo.pdf转储到foo.txt，然后您可以将其读入Perl中。