HttpClient返回特殊字符但无法读取

7
我正在尝试使用async、await和HttpClient下载网页,但只得到一个充满特殊字符的字符串... 代码如下:
static async void DownloadPageAsync(string url)
{
    HttpClient client = new HttpClient();
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html,application/xhtml+xml,application/xml");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
    client.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:19.0) Gecko/20100101 Firefox/19.0");
    client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Charset", "ISO-8859-1");
    HttpResponseMessage response = await client.GetAsync(url);
    response.EnsureSuccessStatusCode();
    var responseStream = await response.Content.ReadAsStreamAsync();
    var streamReader = new StreamReader(responseStream);
    var str = streamReader.ReadToEnd();

}

并且网址是

url = @"http://www.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm";

当我进行技术操作时,
client.DefaultRequestHeaders.Add("User-Agent",
                                 "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; 
                                  WOW64; Trident/6.0)");

我使用了这四个DefaultRequestHeaders,但是出现了403错误。然而,这是一个nse网站,对所有人免费开放。请帮帮我,让我的朋友们得到正确的响应。

谢谢!

Srivastava


你尝试过使用 await response.Content.ReadAsStringAsync(); 而不是使用一个 stream 吗? - Jacob Roberts
是的,我也尝试过了,但是得到的结果仍然是一堆问号和菱形,\b\0\0\0等一大堆无法读取的字符。 - Ashutosh
1个回答

14
client.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");

使用这个头部信息告诉服务器允许它压缩响应内容 gzip/deflate。因此,响应实际上是被压缩的,这就解释了为什么你得到这种响应文本。

如果你想要纯文本,就不应该添加这个头部信息,这样服务器就不会压缩响应。如果你移除上述行,你将得到一个普通的HTML响应文本。

或者,当收到响应后,你当然可以保留这个头部信息并使用GZipStream解压缩响应内容。操作方式如下:

using (var responseStream = await response.Content.ReadAsStreamAsync())
using (var deflateStream = new GZipStream(responseStream, CompressionMode.Decompress))
using (var streamReader = new StreamReader(deflateStream))
{
    var str = streamReader.ReadToEnd();
    Console.WriteLine(str);
}

理想情况下,您应该检查response.Content.Headers.GetValues("Content-Encoding")的值,以确保编码为gzip。由于您还接受deflate作为可能的编码方式,因此您可以使用DeflateStream对其进行解码;或者在缺少Content-Encoding header时不进行任何解码。


在最近的.Net版本中,请检查response.Content.Headers.ContentEncoding - S.Serpooshan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接