我需要根据已知的文件编码和所需的输出编码来决定是否(不)转换文本文件。
如果文本是US-ASCII,则在输出编码为ASCII,UTF-8,Latin1等时无需转换。显然,我需要将US-ASCII文件转换为UTF-16或UTF-32。
标准编码列表位于http://www.iana.org/assignments/character-sets/character-sets.xml。
如果满足以下条件,则需要转换:
- 最小字符大小> 1字节或 - 前127个代码点与US-ASCII不同。
我想知道:
- 是否有类似的列表,其中包含有关每种编码实现的详细信息(字节长度,ASCII兼容性)?
- 我希望有一个仅包含 Qt5支持的编解码器的列表。
如果文本是US-ASCII,则在输出编码为ASCII,UTF-8,Latin1等时无需转换。显然,我需要将US-ASCII文件转换为UTF-16或UTF-32。
标准编码列表位于http://www.iana.org/assignments/character-sets/character-sets.xml。
如果满足以下条件,则需要转换:
- 最小字符大小> 1字节或 - 前127个代码点与US-ASCII不同。
我想知道:
- 是否有类似的列表,其中包含有关每种编码实现的详细信息(字节长度,ASCII兼容性)?
- 我希望有一个仅包含 Qt5支持的编解码器的列表。
编辑
我已经找到了问题的答案
- 所有基于8位或可变8位的编解码器是否都是ASCII的超集?
- 换句话说:US-ASCII可以被解释为任何基于8位或可变8位的编码吗?
在这里找到答案:不是ASCII超集的字符集
相反,了解以下信息会很有帮助:
- 是否有ASCII的超集字符集列表?
这看起来很有前途:
mime.charsets - ASCII超集的字符集列表,
但我找不到实际的mime.charsets文件。