什么是提取PDF文本的最佳Perl模块?

6
什么是从 PDF 中提取文本的最佳方法?

类似的问题也许有用:https://dev59.com/wEXRa4cB1Zd3GeqPqlG3 - jpwco
1个回答

7

CAM::PDF模块非常有用,可用于提取文本并保留一些关于文本来源的信息。它安装了/usr/local/bin/getpdftext.pl,该脚本演示了简单的提取操作。不过,CAM::PDF只能读取完全有效的PDF文件。

如果你正在处理格式不正确的PDF文件,可能需要一个更宽容的解析器,例如pdftotext。它将foo.pdf转储到foo.txt,然后您可以将其读入Perl中。


很棒的第一篇帖子!欢迎来到StackOverflow。 - Robert Harvey
谢谢。能够获得特权,比如同时发布两个链接,感觉很不错。 :) - Phssthpok

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接