Java中解析XML时，如何从字符串中删除无效字符？

Question

Java中解析XML时，如何从字符串中删除无效字符？

javaandroidxmlparsing

4

我一直在Google和Stack Overflow上搜索，但没有任何作用。我遇到了一个与XML源中的字符有关的问题。我将每个标记的值保存在字符串中，但是当出现时，它就停止了。我只能得到标记中的前4-5个单词左右。

请问是否有人可以帮我编写一个方法来删除它？或者XML源中标记中的文本是否太长而无法存储在字符串中？

谢谢！

示例代码：

    public void characters(char[] ch, int start, int length)
        throws SAXException {

    if (currentElement) {
        currentValue = new String(ch, start, length);
        currentElement = false;
    }

}

public void endElement(String uri, String localName, String qName)
        throws SAXException {

    currentElement = false;

    /** set value */ 
    if (localName.equalsIgnoreCase("title"))
        sitesList.setTitle(currentValue);
    else if (localName.equalsIgnoreCase("id"))
        sitesList.setId(currentValue);
    else if(localName.equalsIgnoreCase("description"))
        sitesList.setDescription(currentValue);
}

描述标签中的文本内容非常长，但在出现字符之前，我只能获得前五个字。

- Magnus

1

你能展示你代码的相关部分以及你看到的哪些无效字符吗？ - Anders Lindahl

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Lukas Knuth · Accepted Answer

你正在使用SAX解析器来解析XML字符串。

当仅读取一个XML元素时，characters()方法可能会被调用多次。这种情况发生在它发现类似于<desc>blabla bla & # 39; bla bla la.</desc>的内容时。

解决方案是使用StringBuilder并在characters()方法中添加已读取的字符，然后在endElement()方法中重置StringBuilder：

private class Handler extends DefaultHandler{

    private StringBuilder temp_val;

    public Handler(){
        this.temp_val = new StringBuilder();
    }

    public void characters(char[] ch, int start, int length){
        temp_val.append(ch, start, length);
    }

    public void endElement(String uri, String localName, String qName){
        System.out.println("Output: "+temp_val.toString());
        // ... Do your stuff
        temp_val.setLength(0); // Reset the StringBuilder
    }

}

对我来说，上述代码在给定这个XML文件的情况下是有效的：

<?xml version="1.0" encoding="iso-8859-1" ?>
<test>This is some &#13; example-text.</test>

输出为：

输出：这是一个
示例文本。