Получить статью Википедии С Python

Question

Получить статью Википедии С Python

Я пытаюсь получить статью Википедии с urllib Python:

f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")           
s = f.read()
f.close()

однако вместо html-страницы я получаю следующий ответ: Error-Wikimedia Foundation:

Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT

Википедия, похоже, блокирует запрос, который не из стандартного браузера.

38

http-status-code-403 python urllib2 user-agent wikipedia

автор: unutbu

10 ответов

автор: Florian Bösch · Accepted Answer · 2014-12-08 22:34:59

вам нужно использовать urllib2 что superseedes urllib на библиотека std python для изменения агента пользователя.

прямо из примеры

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
page = infile.read()

автор: Hannes Ovrén · Accepted Answer · 2008-09-23 10:53:36

Это не решение конкретной проблемы. Но вам может быть интересно использовать библиотеку mwclient (http://botwiki.sno.cc/wiki/Python:Mwclient) вместо этого. Это было бы намного проще. Тем более, что вы напрямую получите содержимое статьи, которое устраняет необходимость разбора html.

Я сам использовал его для двух проектов, и он работает очень хорошо.

автор: sligocki · Accepted Answer · 2009-06-11 11:14:20

вместо того, чтобы пытаться обмануть Википедию, вы должны рассмотреть возможность использования их API высокого уровня.

автор: mathias · Accepted Answer · 2012-01-15 21:36:43

Если вы пытаетесь получить доступ к содержимому Википедии (и не нуждаетесь в какой-либо конкретной информации о самой странице), вместо использования api вы должны просто вызвать индекс.php с 'action=raw' для того, чтобы получить wikitext, как в:

'http://en.wikipedia.org/w/index.php?действие=raw & title=Main_Page'

или, если вы хотите HTML-код, используйте 'action=render' как в:

'http://en.wikipedia.org/w/index.php? действие=рендер & title=Main_Page'

вы также можете определить раздел, чтобы получить только часть содержимого с чем-то вроде "section=3".

затем вы можете получить к нему доступ с помощью модуля urllib2 (как указано в выбранном ответе). Однако, если вам нужна информация о самой странице (например, ревизии), вам будет лучше использовать mwclient как sugested выше.

смотрите MediaWiki для FAQ если вам нужна дополнительная информация.

автор: Liam · Accepted Answer · 2008-09-23 09:51:31

общее решение, которое я использую для любого сайта, - это доступ к странице с помощью Firefox и, используя расширение, такое как Firebug, записывать все детали HTTP-запроса, включая любые куки.

в вашей программе (в данном случае в Python) вы должны попытаться отправить HTTP-запрос, подобный тому, который работал из Firefox. Это часто включает в себя настройку полей User-Agent,Referer и Cookie, но могут быть и другие.

автор: Aziz Alto · Accepted Answer · 2014-09-19 05:37:15

requests Это потрясающе!

вот как вы можете получить html-контент с помощью requests:

import requests
html = requests.get('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes').text

готово!

автор: Vasil · Accepted Answer · 2008-09-23 09:41:22

попробуйте изменить заголовок агента пользователя, вы отправляете запрос что-то вроде: Пользователь-агент: корпорация Mozilla/5.0 (X11, то; у; Линукс семейства i686; En-США; Р.:1.9.0.1) Gecko с/2008072820 в Ubuntu/8.04 (Харди) в Firefox/3.0.1 (Линукс Минт)

автор: Gurch · Accepted Answer · 2008-09-23 09:48:05

вам не нужно олицетворять пользовательский агент браузера; любой пользовательский агент вообще будет работать,просто не пустой.

автор: Finn Årup Nielsen · Accepted Answer · 2011-01-25 15:02:18

import urllib
s = urllib.urlopen('http://en.wikipedia.org/w/index.php?action=raw&title=Albert_Einstein').read()

Это, кажется, работает для меня без изменение агента пользователя. Без "action=raw" это не работает для меня.

автор: skierpage · Accepted Answer · 2015-11-11 05:56:24

запрос страницы с ?printable=yes дает вам весь относительно чистый HTML-документ. ?action=render дает вам только тело HTML. Запрос на разбор страницы через API действий MediaWiki с помощью action=parse также дает вам только HTML тела, но было бы хорошо, если вы хотите более тонкий контроль,см. справку API разбора.

Если вы просто хотите HTML-страницу, чтобы вы могли ее отобразить, это быстрее и лучше использовать новый RESTBase API, который возвращает кэшированное HTML-представление страницы. В этом случаеhttps://en.wikipedia.org/api/rest_v1/page/html/Albert_Einstein.

по состоянию на ноябрь 2015 года вам не нужно устанавливать пользовательский агент, но настоятельно рекомендуется. Кроме того, почти все Wikimedia wikis требуется HTTPS, поэтому избегайте перенаправления 301 и сделайте https запросы.