使用Java将补充的Unicode字符序列化为XML文档

Question

使用Java将补充的Unicode字符序列化为XML文档

12

æˆ‘è¯•å›¾åº�åˆ—åŒ–åŒ…å�«è¡¥å……Unicodeå—ç¬¦ï¼ˆä¾‹å¦‚U+1D49Cï¼Œæ•°å¦æ‰‹å†™ä½“å¤§å†™å—æ¯�Aâ€œğ�’œâ€�ï¼‰çš„DOMæ–‡æ¡£ã€‚åˆ›å»ºä¸€ä¸ªå…·æœ‰è¿™æ ·å—ç¬¦çš„èŠ‚ç‚¹å¹¶ä¸�æ˜¯é—®é¢˜ï¼ˆæˆ‘å�ªéœ€å°†èŠ‚ç‚¹å€¼è®¾ç½®ä¸ºUTF-16ç‰æ•ˆå€¼"\uD835\uDC9C"ï¼‰ã€‚ä½†æ˜¯ï¼Œåœ¨åº�åˆ—åŒ–æ—¶ï¼ŒXalanå’ŒXSLTCï¼ˆä½¿ç”¨Transformerï¼‰ä»¥å�ŠXercesï¼ˆä½¿ç”¨LSSerializerï¼‰éƒ½ä¼šåˆ›å»ºæ— æ•ˆçš„å—ç¬¦å®�ä½“ï¼Œå¦‚"&#55349;&#56476;"è€Œä¸�æ˜¯"𝒜"ã€‚æˆ‘å°�è¯•äº†LSSerializerçš„"normalize-characters"å�‚æ•°ï¼Œä½†å®ƒä¸�è¢«æ”¯æŒ�ã€‚å�ªæœ‰Saxonåœ¨ç¼–ç �ä¸ºUnicodeæ—¶æ‰�èƒ½æ£ç¡®å¤„ç�†ï¼Œè€Œä¸�ä½¿ç”¨å—ç¬¦å®�ä½“ã€‚

æˆ‘ä¸�èƒ½åœ¨å®�è·µä¸ä½¿ç”¨Saxonï¼ˆé™¤å…¶ä»–å�Ÿå› å¤–ï¼Œæˆ‘ä½¿ç”¨Javaå°�ç¨‹åº�ï¼Œä¸�æƒ³åŠ è½½å�¦ä¸€ä¸ªjarï¼‰ï¼Œå› æ¤æˆ‘æ£åœ¨å¯»æ‰¾ä½¿ç”¨é»˜è®¤JDKåº“è§£å†³è¯¥é—®é¢˜çš„æ–¹æ³•ã€‚æ˜¯å�¦å�¯èƒ½ä»�å¸¦æœ‰è¡¥å……Unicodeå—ç¬¦çš„DOMæ–‡æ¡£ä¸è�·å�–æœ‰æ•ˆçš„XMLæ–‡æ¡£åº�åˆ—åŒ–ï¼Ÿ

[ç¼–è¾‘] æˆ‘å�‘ç�°è¿˜æœ‰å…¶ä»–äººé�‡åˆ°è¿‡è¿™ä¸ªé—®é¢˜: http://www.dragishak.com/?p=131 [ç¼–è¾‘2] å®�é™…ä¸Šï¼Œå½“æˆ‘æ²¡æœ‰å°†xercesæ”¾åœ¨ç±»è·¯å¾„ä¸Šï¼ˆä½¿ç”¨çš„ç±»æ˜¯com.sun.org.apache.xml.internal.serialize.DOMSerializerImplï¼‰æ—¶ï¼ŒLSSerializerä¼¼ä¹�å�¯ä»¥æ£å¸¸å·¥ä½œã€‚å¯¹äº�com.sun.org.apache.xalan.internal.xsltc.trax.TransformerFactoryImplå’ŒTransformeræ�¥è¯´ï¼Œåˆ™ä¸�è¡Œã€‚

- Damien

你是否同时处理两端？如果是这样，您为什么不能在序列化端自己进行编码（base64、urlencode等），然后在反序列化端将其反转呢？ - Chris Moran

1

这看起来像是序列化器中的明显错误。字符范围包括补充字符，明确排除代理项，因此XML中的“char”是Unicode标量值，并且存在一个有关字符引用的格式正确性约束：“使用字符引用引用的字符必须与Char的生成匹配。”这被Xalan和XSLTC违反了。 - Mike Samuel

1

我发现避免xalan序列化程序错误的一种方法是使用UTF-16编码... LSSerializer.writeToString也使用UTF-16... - Damien

你是说在这个XML文档上使用Xalan应用身份转换会产生其他结果吗？我简直不敢相信。 - Dimitre Novatchev

@Damien，问题是我没有安装Xalan。:( 另外，我没有看到Dragisa使用任何XSLT转换。我问过身份变换是否有这个问题。 - Dimitre Novatchev

显示剩余2条评论

2个回答

2

以下是我成功使用的示例。代码是用Groovy编写的，运行在Java 7上，你可以很容易地将其翻译成Java，因为我在示例中使用了所有的Java API。如果传入了一个包含补充（平面1）Unicode字符的DOM文档，则会返回一个正确序列化这些字符的字符串。例如，如果文档中有一个Unicode Script L（请参见http://www.fileformat.info/info/unicode/char/1d4c1/index.htm），它将被序列化为返回的字符串&#x1d4c1，而不是&#55349;&#56513;（这是使用Xalan Transformer时得到的结果）。

import org.w3c.dom.Document
...

def String writeToStringLS( Document doc ) {
  def domImpl = doc.getImplementation()
  def implLS = domImpl.getFeature("LS", "3.0")
  def lsOutput = implLS.createLSOutput()
  lsOutput.encoding = "UTF-8"
  def bo = new ByteArrayOutputStream()
  def out = new BufferedWriter( new OutputStreamWriter( bo, "UTF-8") )
  lsOutput.characterStream = out
  def lsWriter = implLS.createLSSerializer()
  def result = lsWriter.write(doc, lsOutput)
  return bo.toString()
}

- 2Aguy

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Damien · Accepted Answer

由于我没看到任何答案，并且其他人似乎也有同样的问题，所以我进一步研究了这个问题...

为了找出错误的起源，我使用了Xalan 2.7.1中的serializer源代码，该源代码也用于Xerces。

org.apache.xml.serializer.dom3.LSSerializerImpl使用org.apache.xml.serializer.ToXMLStream，后者扩展org.apache.xml.serializer.ToStream。

ToStream.characters(final char chars[], final int start, final int length)处理字符，但不能正确地支持Unicode字符（注意：org.apache.xml.serializer.ToTextSream（可用于Transformer）在characters方法中执行得更好，但它仅处理纯文本并忽略所有标记；人们会认为XML文件是文本，但由于某些原因,ToXMLStream没有扩展ToTextStream）。

org.apache.xalan.transformer.TransformerIdentityImpl也使用org.apache.xml.serializer.ToXMLStream（由org.apache.xml.serializer.SerializerFactory.getSerializer(Properties format)返回），因此它也受到相同错误的影响。

ToStream使用org.apache.xml.serializer.CharInfo来检查是否应将字符替换为String，因此也可以在其中修复错误，而不是直接在ToStream中。 CharInfo使用属性文件org.apache.xml.serializer.XMLEntities.properties，其中列出了字符实体的列表，因此更改此文件也可能是修复错误的一种方法，尽管到目前为止，它仅用于特殊的XML字符(quot,amp,lt,gt)。使ToXMLStream使用与包中不同的属性文件的唯一方法是在类路径中添加一个org.apache.xml.serializer.XMLEntities.properties文件，这并不是很干净...

使用默认的JDK（1.6和1.7），TransformerFactory返回一个com.sun.org.apache.xalan.internal.xsltc.trax.TransformerImpl，其使用com.sun.org.apache.xml.internal.serializer.ToXMLStream。在com.sun.org.apache.xml.internal.serializer.ToStream中，characters()有时会调用processDirty()，后者调用accumDefaultEscape()，该方法可以更好地处理Unicode字符，但在实践中似乎不起作用（也许不能为Unicode字符调用processDirty）...

com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl使用支持unicode的com.sun.org.apache.xml.internal.serialize.XMLSerializer。奇怪的是，XMLSerializer来自于Xerces，但当类路径中存在xalan或xsltc时，Xerces不会使用它。这是因为org.apache.xerces.dom.CoreDOMImplementationImpl.createLSSerializer在可用时使用org.apache.xml.serializer.dom3.LSSerializerImpl而不是org.apache.xerces.dom.DOMSerializerImpl。如果类路径上有serializer.jar，则会使用org.apache.xml.serializer.dom3.LSSerializerImpl。警告：xalan.jar和xsltc.jar都在清单文件中引用了serializer.jar，因此如果它们位于同一目录中并且其中一个在类路径上，则serializer.jar将出现在类路径上！如果类路径上只有xercesImpl.jar和xml-apis.jar，则org.apache.xerces.dom.DOMSerializerImpl将作为LSSerializer使用，并正确处理unicode字符。

结论和解决方法：问题出在Apache的org.apache.xml.serializer.ToStream类（在JDK内部重命名为com.sun.org.apache.xml.internal.serializer.ToStream）。一个正确处理unicode字符的序列化器是org.apache.xml.serialize.DOMSerializerImpl（在JDK内部重命名为com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl）。然而，当ToStream可用时，Apache更喜欢使用它，因此可能对其他事情有更好的表现（或者只是一种重新组织）。此外，他们甚至在Xerces 2.9.0中弃用了DOMSerializerImpl。因此，以下解决方法可能会产生副作用：

当类路径上存在Xerces和Apache的serializer时，请将"(doc.getImplementation()).createLSSerializer()"替换为"new org.apache.xerces.dom.DOMSerializerImpl()"
当类路径上存在Apache的serializer（例如由于xalan）但不存在Xerces时，请尝试将"(doc.getImplementation()).createLSSerializer()"替换为"new com.sun.org.apache.xml.internal.serialize.DOMSerializerImpl()"（需要回退，因为这个类可能会在将来消失）

这两种解决方法在编译时会产生警告。

我没有关于XSLT转换的解决方法，但这超出了问题的范围。我猜可以将其转换为另一个DOM文档，并使用DOMSerializerImpl进行序列化。

其他一些解决方法可能更适合某些人：

- 使用带有Transformer的Saxon - 使用UTF-16编码的XML文档