实现你想要的“最正确”的方法是实现一个自定义后备编码器,它执行最佳匹配回退。 .NET内置的那个由于各种原因在尝试最佳匹配时相当保守(根据您计划对重新编码的字符串进行何种用途,可能存在安全性问题)。您的自定义回退策略可以根据您想要的任何规则执行最佳匹配。
话虽如此-在您的回退类中,您最终将编写一个大型案例语句,其中包含所有不可编码的Unicode代码点,并手动将它们映射到其最佳替代品。您可以通过预先循环遍历字符串并替换不支持的字符来实现相同的目标。回退策略的主要好处是性能:您只需要循环一次字符串,而不是至少两次。但除非您的字符串很大,否则我不会太担心。
如果确实要实现自定义回退策略,您应该确实阅读我评论中的文章:
.NET Framework中的字符编码。这不是真的难,但您必须了解编码回退的工作原理。
您为
Encoder.GetEncoding
方法提供自定义类的实现,该类必须派生自
EncoderFallback
。不过,该类基本上只是真正工作的包装器,在
EncoderFallbackBuffer
中完成。您需要缓冲区的原因是回退不一定是一对一的过程;在您的示例中,您可能会将单个Unicode字符映射到两个ASCII字符。
在编码过程首次遇到问题并需要依靠您的策略进行回退的点上,它使用您的
EncoderFallback
实现来创建
EncoderFallbackBuffer
的实例。然后调用您自定义缓冲区的
Fallback
方法。
在内部,您的缓冲区构建一组要替换非可编码字符的字符,并返回
true
。从那里开始,编码器将反复调用
GetNextChar
,只要
Remaining> 0
和/或直到
GetNextChar
返回CP 0为止,并将这些字符粘贴到编码结果中。
文章包括一个几乎完全实现了您要尝试做的事情的实现;我已经复制了下面的基本框架,这应该可以让您入门。
public class CustomMapper : EncoderFallback
{
public string DefaultString;
public CustomMapper() : this("*")
{
}
public CustomMapper(string defaultString)
{
this.DefaultString = defaultString;
}
public override EncoderFallbackBuffer CreateFallbackBuffer()
{
return new CustomMapperFallbackBuffer(this);
}
public override int MaxCharCount
{
get { return 2; }
}
}
public class CustomMapperFallbackBuffer : EncoderFallbackBuffer
{
CustomMapper fb;
public CustomMapperFallbackBuffer(CustomMapper fallback)
{
this.fb = fallback;
}
public override bool Fallback(char charUnknown, int index)
{
}
public override bool Fallback(char charUnknownHigh, char charUnknownLow, int index)
{
}
public override char GetNextChar()
{
}
public override bool MovePrevious()
{
}
public override int Remaining
{
get { return count < 0 ? 0 : count; }
}
public override void Reset()
{
}
}