我有一个巨大的 XML 文件,其中示例数据如下:
如您所见,文本中有“ Gesellschaft für Bildverarbeitung ”这个字符串,它不符合UTF-8标准,因此我从xml验证器中得到了错误信息,例如:
<vendor name="aglaia"><br>
<vendorOUI oui="000B91" description="Aglaia Gesellschaft für Bildverarbeitung ud Kommunikation m" /><br>
</vendor><br>
<vendor name="ag"><br>
<vendorOUI oui="0024A9" description="Ag Leader Technology" /><br>
</vendor><br>
如您所见,文本中有“ Gesellschaft für Bildverarbeitung ”这个字符串,它不符合UTF-8标准,因此我从xml验证器中得到了错误信息,例如:
导入失败: com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.因此问题是如何在Linux环境下处理这个问题,将xml文件转换为UTF-8兼容格式?或者在第一次创建xml时是否有办法确保所有变量/字符串以UTF-8兼容格式存储?
<?xml version="1.0" encoding="UTF-8"?>
,如果是,那么编码是什么?如果文件没有此头文件,你知道实际的编码吗? - Jim Garrison