SAX解析和特殊字符

3

我希望使用SAX解析器从xml文件中解析一些数据。我的xml如下:

<categories>
 <cat>Pies &amp; past</cat>
 <cat>Fruits</cat>
</categories>

为了解析这些数据,我扩展了DefaultHandler。
解析后的输出如下:
cat 1 = Pies

cat 2 = &

cat 3 = past

cat 4 = Fruits

为什么会出现这种情况而不是得到以下结果:
cat 1 = Pies & past

cat 2 = Fruits

http://stackoverflow.com/questions/8770097/how-to-make-saxparser-ignore-escape-codes - Faruk Sahin
请参见此处的答案。 - ShyJ
2个回答

10

我的猜测是你正在处理characters的每个调用,以提供cat元素的完整文本。你应该编写处理程序,使连续对characters的调用累加文本,并且只在endElement事件上捕获它:

public class CatHandler extends DefaultHandler {
    private StringBuilder chars = new StringBuilder();

    public void startElement(String uri, String lName, String qName, Attributes a)
    {
        final String name = qName == null ? lName : qName;
        if ("cat".equals(name)) {
            chars.setLength(0);
        } else . . .
    }

    public void endElement(String uri, String lName, String qName) {
        final String name = qName == null ? lName : qName;
        if ("cat".equals(name)) {
            String catName = chars.toString();
            // do something with cat name
        } else . . .
    }

    public void characters(char[] ch, int start, int length) {
        chars.append(ch, start, length);
    }

3
characters()方法不需要返回完整的文本元素。相反,您应该在每个characters()调用中收集可用的文本,并在相应的endElement()调用上将它们连接起来。
根据文档
解析器将调用此方法报告每个字符块数据。SAX解析器可以将所有连续的字符数据返回为单个块,也可以将其分成多个块。(我偏重强调)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接