如何使用Apache POI从PDF中提取原始文本？

Question

4

我需要从多个文件中提取原始文本，其中一些是PDF格式，一些是DOC文件格式。我必须使用Apache POI来完成此操作。现在，我找到了许多关于处理Word文件（提取和写入等）的文档，但我无法找到任何有关从PDF中提取的文档。

我是不是错了，认为Apache POI具有这种功能？

如果是这样，请问是否有类似的Java程序，允许从多个文件格式中提取文本？

如果不是，请问是否有人可以指导我应该查看哪些文档和/或类/方法来完成此操作？

非常感谢您提供的任何帮助。

- superdemongob

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gagravarr · Accepted Answer

是的，你误以为POI会实现这一功能。 Apache POI 与Microsoft Office文件格式兼容，而PDF格式并不支持。

你要么直接使用Apache PDFBox，要么使用Apache Tika，后者可以同时处理Microsoft Office和PDF文件格式（及其他许多格式）。