使用Tika从xml中提取完整内容

Question

使用Tika从xml中提取完整内容

3

我希望使用tika提取xml文件的完整内容。这意味着tika不应该将文本从元素中取出并丢弃标签。

内容的输出应该像这样：

content:
<?xml version="1.0" encoding="UTF-8" ?>
<xml>
    <tag1>text</tag1>
    <tag2>text</tag2>
</xml>

但结果总是这样：

content: 





     text
     text

程序代码：

public static void main(String[] args) {
    try {
        InputStream input;

        input = new FileInputStream(new File("D:/SolrTestFileSystem/Test_Files/test.xml"));

        ContentHandler textHandler = new WriteOutContentHandler();
        Metadata metadata = new Metadata();
        XMLParser parser = new XMLParser();
        ParseContext context = new ParseContext();
        parser.parse(input, textHandler, metadata, context);
        input.close();
        System.out.println("content: " + textHandler.toString());
    } catch (Exception e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
}

XML文件:

<?xml version="1.0" encoding="UTF-8" ?>
<xml>
    <tag1>text</tag1>
    <tag2>text</tag2>
</xml>

- AKR

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gagravarr · Answer 1

你的问题是你正在使用一个只能捕获文本内容的处理程序。如果你想要XML标签，你需要使用一个保留它们的处理程序！

(你的处理程序被称为textHandler这个事实暗示了你参考的例子想要纯文本！)

从Apache Tika用于文本和xhtml/xml提取的示例中获取的代码应该改为：

import org.apache.tika.sax.ToXMLContentHandler;

InputStream input = TikaInputStream.get(new File("D:/SolrTestFileSystem/Test_Files/test.xml"));
ContentHandler handler = new ToXMLContentHandler();

Metadata metadata = new Metadata();
XMLParser parser = new XMLParser();
ParseContext context = new ParseContext();
parser.parse(input, handler, metadata, context);

input.close();
System.out.println("content: " + handler.toString());