在Java中过滤非法的XML字符

Question

在Java中过滤非法的XML字符

javaxmlunicode

10

XML规范定义了XML文档中允许使用的Unicode字符的子集：

http://www.w3.org/TR/REC-xml/#charsets

我该如何在Java中过滤掉这些字符？

简单测试用例：

  Assert.equals("", filterIllegalXML(""+Character.valueOf((char) 2)))

- Grzegorz Oledzki

为什么会出现这些“非法”的XML字符？一旦检测到它们，您想要做什么？删除？替换？ - Romain Hippeau

@RH：忽略它们就足够了。最好的解决方案是删除它们并获得某种报告。这样我就可以记录一个警告。 - Grzegorz Oledzki

如果有人想知道，我利用了Xerces的XMLChar，正如ZZ Coder所建议的那样。你可以在这里找到整个方法：http://pastebin.com/6Vbm1zuC - Grzegorz Oledzki

7个回答

1

请使用escapeXml10或escapeXml11。这些函数可以转义一些特殊字符，如"、&、'、<、>及其他一些无效字符也会被过滤掉。

对于那些不想过滤无效字符但想用另一种转义系统进行转义的人，请看看我在这里的回答https://dev59.com/_bjna4cB1Zd3GeqP6z2D#59475093。

- stonar96

1

此页面包含一个Java方法，通过测试每个字符是否符合规范来剥离无效的XML字符，但它不检查强烈不建议使用的字符。

顺便提一下，转义字符也不是解决方案，因为XML 1.0和1.1规范也不允许以转义形式存在无效字符。

- Stephen C

1

链接已失效...也许这是新的URL？http://benjchristensen.com/2008/02/07/how-to-strip-invalid-xml-characters/ - Michael

0

这里有一个解决方案，可以处理流中的原始字符和转义字符，适用于stax或sax。需要扩展其他无效字符，但您可以理解这个想法。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.Reader;
import java.io.UnsupportedEncodingException;
import java.io.Writer;

import org.apache.commons.io.IOUtils;
import org.apache.xerces.util.XMLChar;

public class IgnoreIllegalCharactersXmlReader extends Reader {

    private final BufferedReader underlyingReader;
    private StringBuilder buffer = new StringBuilder(4096);
    private boolean eos = false;

    public IgnoreIllegalCharactersXmlReader(final InputStream is) throws UnsupportedEncodingException {
        underlyingReader = new BufferedReader(new InputStreamReader(is, "UTF-8"));
    }

    private void fillBuffer() throws IOException {
        final String line = underlyingReader.readLine();
        if (line == null) {
            eos = true;
            return;
        }
        buffer.append(line);
        buffer.append('\n');
    }

    @Override
    public int read(char[] cbuf, int off, int len) throws IOException {
        if(buffer.length() == 0 && eos) {
            return -1;
        }
        int satisfied = 0;
        int currentOffset = off;
        while (false == eos && buffer.length() < len) {
            fillBuffer();
        }
        while (satisfied < len && buffer.length() > 0) {
            char ch = buffer.charAt(0);
            final char nextCh = buffer.length() > 1 ? buffer.charAt(1) : '\0';
            if (ch == '&' && nextCh == '#') {
    final StringBuilder entity = new StringBuilder();
    // Since we're reading lines it's safe to assume entity is all
    // on one line so next char will/could be the hex char
    int index = 0;
    char entityCh = '\0';
    // Read whole entity
    while (entityCh != ';') {
        entityCh = buffer.charAt(index++);
        entity.append(entityCh);
    }
    // if it's bad get rid of it and clean it from the buffer and point to next valid char
    if (entity.toString().equals("&#2;")) {
        buffer.delete(0, entity.length());
        continue;
    }
            }
            if (XMLChar.isValid(ch)) {
    satisfied++;
    cbuf[currentOffset++] = ch;
            }
            buffer.deleteCharAt(0);
        }
        return satisfied;
    }

    @Override
    public void close() throws IOException {
        underlyingReader.close();
    }

    public static void main(final String[] args) {
        final File file = new File(
    <XML>);
        final File outFile = new File(file.getParentFile(), file.getName()
    .replace(".xml", ".cleaned.xml"));
        Reader r = null;
        Writer w = null;
        try {
            r = new IgnoreIllegalCharactersXmlReader(new FileInputStream(file));
            w = new OutputStreamWriter(new FileOutputStream(outFile),"UTF-8");
            IOUtils.copyLarge(r, w);
            w.flush();
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            IOUtils.closeQuietly(r);
            IOUtils.closeQuietly(w);
        }
    }
}

- gomesla

0

使用StringEscapeUtils.escapeXml(xml)从commons-lang会转义而不是过滤字符。

- Bozho

2

我已经使用这种方法来转义实体（例如<转换为<），但那是另一回事。该方法似乎没有过滤任何非法字符。它在我的“测试用例”中失败了。 - Grzegorz Oledzki

assertEquals("", StringEscapeUtils.escapeXml(""+Character.valueOf((char) 2))); 根据问题所述： - Grzegorz Oledzki

啊，抱歉。嗯，我不确定这个字符是否能进入XML :) 也许commons-lang会忽略它。实际上 - 你的commons-lang版本是多少？ - Bozho

我的项目目前正在使用2.4版本，但我刚刚检查了一下2.5版本，发现没有任何区别。 - Grzegorz Oledzki

从文档中：StringEscapeUtils.escapeXml(xml) 仅支持五个基本的 XML 实体（gt、lt、quot、amp、apos）。不支持 DTD 或外部实体。 - jediz

此函数已被弃用，应使用 escapeXml10 或 escapeXml11 进行替换。请注意，这些函数还会过滤无效字符。 - stonar96

0

基于 Stephen C 回答中的评论和 XML 1.1 规范的维基百科，这里有一个 Java 方法，展示了如何使用正则表达式替换来删除非法字符：

boolean isAllValidXmlChars(String s) {
  // xml 1.1 spec http://en.wikipedia.org/wiki/Valid_characters_in_XML
  if (!s.matches("[\\u0001-\\uD7FF\\uE000-\uFFFD\\x{10000}-\\x{10FFFF}]")) {
    // not in valid ranges
    return false;
  }
  if (s.matches("[\\u0001-\\u0008\\u000b-\\u000c\\u000E-\\u001F\\u007F-\\u0084\\u0086-\\u009F]")) {
    // a control character
    return false;
  }

  // "Characters allowed but discouraged"
  if (s.matches(
    "[\\uFDD0-\\uFDEF\\x{1FFFE}-\\x{1FFFF}\\x{2FFFE}–\\x{2FFFF}\\x{3FFFE}–\\x{3FFFF}\\x{4FFFE}–\\x{4FFFF}\\x{5FFFE}-\\x{5FFFF}\\x{6FFFE}-\\x{6FFFF}\\x{7FFFE}-\\x{7FFFF}\\x{8FFFE}-\\x{8FFFF}\\x{9FFFE}-\\x{9FFFF}\\x{AFFFE}-\\x{AFFFF}\\x{BFFFE}-\\x{BFFFF}\\x{CFFFE}-\\x{CFFFF}\\x{DFFFE}-\\x{DFFFF}\\x{EFFFE}-\\x{EFFFF}\\x{FFFFE}-\\x{FFFFF}\\x{10FFFE}-\\x{10FFFF}]"
  )) {
    return false;
  }

  return true;
}

- rogerdpack

-1

你可以使用正则表达式来完成工作，在评论中可以看到一个例子这里

- The Student

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ZZ Coder · Accepted Answer

要找出XML中所有无效字符并不是一件简单的事情。您需要调用或重新实现来自Xerces的XMLChar.isInvalid()方法。

http://kickjava.com/src/org/apache/xerces/util/XMLChar.java.htm