使用WebClient和WebRequest之间的编码差异？

Question

使用WebClient和WebRequest之间的编码差异？

4

在使用 WebRequest 获取某个西班牙报纸的索引时，我无法正确地获取发音符号。它们会产生这种奇怪的字符：�。但是，使用 WebClient 下载来自同一 URI 的响应时，我可以得到适当的响应。

为什么会出现这种差异呢？

var client = new WebClient();
string html = client.DownloadString(endpoint);

vs

WebRequest request = WebRequest.Create(endpoint);
using (WebResponse response = request.GetResponse())
{
    Stream stream = response.GetResponseStream();
    StreamReader reader = new StreamReader(stream);
    string html = reader.ReadToEnd();
}

- bevacqua

我猜这可能是因为WebClient.DownloadString方法查看content-type头信息（如“text/html; charset=utf-16”）来推断编码方式，但您的WebRequest方法使用UTF8（即StreamReader的默认值）。 - spender

在这种情况下，“content-type”头部没有指定字符集。 - bevacqua

@Nico。然后，它应该根据前导（以检测BOM和其他提示）对UTF-8、UTF-16LE、UTF-16BE和UTF-32进行测试，最后默认使用默认的传统字符集，这恰好与您机器上的站点匹配。由于HTTP假定Latin-1（毕竟，这是90年代初），因此最好将其明确用作“我不知道”的选择。 - Jon Hanna

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jon Hanna · Accepted Answer

您在创建流读取器时，只是假设实体采用UTF-8编码，而没有明确设置编码方式。您应该检查HttpWebResponse的CharacterSet（在WebResponse基类中未公开），并使用适当的编码打开StreamReader。

否则，如果它将不是UTF-8的内容读取为UTF-8，则会遇到在UTF-8中无效的八位序列，并且必须替换为U+FFFD替换字符（�）作为最佳解决方案。

WebClient几乎就是这样做的：DownloadString是一个更高级别的方法，其中WebRequest及其派生类让您进入较低级别，它有一个单独的调用，用于“发送GET请求到URI，检查头以查看正在使用哪种内容编码，以防需要取消gzip或解压缩，查看正在使用哪种字符编码，使用该编码和流设置文本读取器，然后调用ReadAll()”。正常的高级大块指令与低级小块指令的优缺点适用。