我正在尝试从各种文档中提取所有的文本。为此,我正在使用Apache Tika 1.4。
RecursiveTikaParser parser = new RecursiveTikaParser(new AutoDetectParser());
ParseContext parseContext = new ParseContext();
parseContext.set(Parser.class, parser);
RecursiveTikaParser在此处只是AutoDetectParser的包装器。
对于其解析方法,大致如下 -
ContentHandler content = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
super.parse(stream, content, metadata, context);
System.out.println("Parsed text is " + content.toString());
现在,这段代码必须能够处理多个文件,所以我正在使用AutoDetectParser()
我注意到在我的测试中,给定一个xml文件-我只能提取标签之间的文本,而不能提取注释、标签等。
使用当前的方法,是否可能从文本文件中提取所有内容?