C# загрузка веб-сайта в строку с помощью C# WebClient или HttpWebRequest
Я пытаюсь загрузить содержимое сайта. Однако для определенной веб-страницы возвращаемая строка содержит перемешанные данные, содержащие много символов�.
вот код, который я изначально использовал.
HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(url);
req.Method = "GET";
req.UserAgent = "Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US))";
string source;
using (StreamReader reader = new StreamReader(req.GetResponse().GetResponseStream()))
{
source = reader.ReadToEnd();
}
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(source);
Я также пробовал альтернативные реализации с WebClient, но все тот же результат:
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
using (WebClient client = new WebClient())
using (var read = client.OpenRead(url))
{
doc.Load(read, true);
}
из поиска я думаю, что это может быть проблема с кодировкой, поэтому я попробовал оба решения, опубликованные ниже, но все еще не могу получить это работа.
- http://blogs.msdn.com/b/feroze_daud/archive/2004/03/30/104440.aspx
- http://bytes.com/topic/c-sharp/answers/653250-webclient-encoding
оскорбительный сайт, который я не могу загрузить, - это статья United_States в английской версии Википедии (ru . Википедия. org / wiki / United_States). Хотя я пробовал ряд других статей Википедии и не видел этого вопрос.
3 ответов
ответ закодирован в gzip. Попробуйте следующее, чтобы декодировать поток:
обновление
на основе комментария BrokenGlass установка следующих свойств должна решить вашу проблему (работала для меня):
req.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate";
req.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip;
старое / ручное решение:
string source;
var response = req.GetResponse();
var stream = response.GetResponseStream();
try
{
if (response.Headers.AllKeys.Contains("Content-Encoding")
&& response.Headers["Content-Encoding"].Contains("gzip"))
{
stream = new System.IO.Compression.GZipStream(stream, System.IO.Compression.CompressionMode.Decompress);
}
using (StreamReader reader = new StreamReader(stream))
{
source = reader.ReadToEnd();
}
}
finally
{
if (stream != null)
stream.Dispose();
}
использование встроенного загрузчика в HtmlAgilityPack работало для меня:
HtmlWeb web = new HtmlWeb();
HtmlDocument doc = web.Load("http://en.wikipedia.org/wiki/United_States");
string html = doc.DocumentNode.OuterHtml; // I don't see no jumbled data here
Edit:
используя стандартный WebClient
С вашим user-agent приведет к HTTP 403-forbidden-использование этого вместо этого сработало для меня:
using (WebClient wc = new WebClient())
{
wc.Headers.Add("user-agent", "Mozilla/5.0 (Windows; Windows NT 5.1; rv:1.9.2.4) Gecko/20100611 Firefox/3.6.4");
string html = wc.DownloadString("http://en.wikipedia.org/wiki/United_States");
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
}
Также см. Эту тему SO:WebClient запрещает открывать страницу Википедии?
вот как я обычно хватаю страницу в строку (ее VB, но должен легко переводить):
req = Net.WebRequest.Create("http://www.cnn.com")
Dim resp As Net.HttpWebResponse = req.GetResponse()
sr = New IO.StreamReader(resp.GetResponseStream())
lcResults = sr.ReadToEnd.ToString
и не было проблем, которые у вас есть.