我遇到了一些使用Apache TIKA(版本1.10)的麻烦。我有一些PDF文件,它们只是扫描出来的纸张,这意味着每一页都是一个图像。我的目标是无论如何提取PDF文件的文本内容。
我的tesseract设置正确,并且提取JPG和PNG文件非常顺利。我正在使用以下代码(不要注意缺少的异常处理):
我的tesseract设置正确,并且提取JPG和PNG文件非常顺利。我正在使用以下代码(不要注意缺少的异常处理):
public String extractText(InputStream stream) {
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(stream, handler, metadata, context);
String text = handler.toString();
return text;
}
我搜索了很多,但是没有找到适合我的解决方案。我已经尝试了PDFParserConfig
类的setExtractInlineImages
方法,但这并没有改变任何事情。使用自定义ParsingEmbeddedDocumentExtractor
提取嵌入式文档可以提取doc文件的嵌入资源,但对于我的PDF文件则不行。
如果您中的任何人能够提供一些帮助,那将是太棒了:)
PDFParserConfig
? - Gagravarr