我们有一个应用程序,它接收用户在Web表单中输入的文本字符串并将其打包成XML格式。为了使事情更加混乱,XML作为Outlook电子邮件消息的正文发送。
由于用户可以将几乎任何东西粘贴到Web表单中(通常来自Word),因此文本字符串可能包含非ASCII(7位)字符,例如用于开启和关闭双引号的字符。
该字符串通过电子邮件完整地传输,但当我们使用Microsoft XML解析器时,它会抱怨(完全正确)XML包含无效字符。
一个快速的解决方法是在头部中放置encoding="iso-8859-1"。但是,我想知道是否最好在开始时以真正的UTF-8格式对XML文件进行编码,因为我读过一些文章,这些文章指出,如果每个XML文档都以UTF-8编码,那么世界将更加和谐?
但是...由于XML文档实际上是通过电子邮件消息的正文传输的,我们会遇到麻烦吗?我了解到UTF-8是一种可变字节长度编码系统,我假设使用7位ASCII和转义字符来表示“还有更多数据”。
另一个选择是设置为UTF-8,但使用&#nnn;格式替换非ASCII字符。
对于这个相当复杂的领域,任何建议都将不胜感激。
谢谢,Rob。
由于用户可以将几乎任何东西粘贴到Web表单中(通常来自Word),因此文本字符串可能包含非ASCII(7位)字符,例如用于开启和关闭双引号的字符。
该字符串通过电子邮件完整地传输,但当我们使用Microsoft XML解析器时,它会抱怨(完全正确)XML包含无效字符。
一个快速的解决方法是在头部中放置encoding="iso-8859-1"。但是,我想知道是否最好在开始时以真正的UTF-8格式对XML文件进行编码,因为我读过一些文章,这些文章指出,如果每个XML文档都以UTF-8编码,那么世界将更加和谐?
但是...由于XML文档实际上是通过电子邮件消息的正文传输的,我们会遇到麻烦吗?我了解到UTF-8是一种可变字节长度编码系统,我假设使用7位ASCII和转义字符来表示“还有更多数据”。
另一个选择是设置为UTF-8,但使用&#nnn;格式替换非ASCII字符。
对于这个相当复杂的领域,任何建议都将不胜感激。
谢谢,Rob。