Apache Tika与加密PDF

4
我想使用Apache Tika库提取PDF内容,但遇到了用户名和密码加密的PDF文件。导致以下错误:

INFO Document is encrypted org.apache.tika.exception.EncryptedDocumentException: 无法处理:文档已加密 at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:153)

Caused by: org.apache.pdfbox.exceptions.CryptographyException: 找不到适当的安全处理程序 Adobe.APS at org.apache.pdfbox.pdmodel.PDDocument.decrypt(PDDocument.java:952) at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:139) ... 4 more

有人知道Apache Tika是否支持提取带有此安全功能的PDF文件吗?

您可以在PDFBox用户列表上提问:users@pdfbox.apache.org - Tim Allison
嘿 @fattysxx,你找到解决方案了吗?还是有什么更新吗? - HankNessip
1个回答

0

您可以在下面尝试。这对我有效。

PasswordProvider pp = (metadata) -> "password";

    // Create a context parser for the pdf document
    ParseContext context = new ParseContext();
    context.set(PasswordProvider.class, pp);

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接