如何使用Apache POI从PDF中提取原始文本?

4
我需要从多个文件中提取原始文本,其中一些是PDF格式,一些是DOC文件格式。我必须使用Apache POI来完成此操作。现在,我找到了许多关于处理Word文件(提取和写入等)的文档,但我无法找到任何有关从PDF中提取的文档。
我是不是错了,认为Apache POI具有这种功能?
如果是这样,请问是否有类似的Java程序,允许从多个文件格式中提取文本?
如果不是,请问是否有人可以指导我应该查看哪些文档和/或类/方法来完成此操作?
非常感谢您提供的任何帮助。
1个回答

5

是的,你误以为POI会实现这一功能。 Apache POI 与Microsoft Office文件格式兼容,而PDF格式并不支持。

你要么直接使用Apache PDFBox,要么使用Apache Tika,后者可以同时处理Microsoft Office和PDF文件格式(及其他许多格式)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接