Python Web Scraping - ошибка urlopen [Errno -2] имя или служба не известны
Я пытаюсь извлечь данные из Приложения Civic Commons ссылка на мой проект. Я могу получить ссылки на страницу, которая мне нужна. Но когда я пытаюсь открыть ссылки, я получаю "urlopen error [Errno -2] Name или service not known"
веб-выскабливание кода python:
from bs4 import BeautifulSoup
from urlparse import urlparse, parse_qs
import re
import urllib2
import pdb
base_url = "http://civiccommons.org"
url = "http://civiccommons.org/apps"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
list_of_links = []
for link_tag in soup.findAll('a', href=re.compile('^/civic-function.*')):
string_temp_link = base_url+link_tag.get('href')
list_of_links.append(string_temp_link)
list_of_links = list(set(list_of_links))
list_of_next_pages = []
for categorized_apps_url in list_of_links:
categorized_apps_page = urllib2.urlopen(categorized_apps_url)
categorized_apps_soup = BeautifulSoup(categorized_apps_page.read())
last_page_tag = categorized_apps_soup.find('a', title="Go to last page")
if last_page_tag:
last_page_url = base_url+last_page_tag.get('href')
index_value = last_page_url.find("page=") + 5
base_url_for_next_page = last_page_url[:index_value]
for pageno in xrange(0, int(parse_qs(urlparse(last_page_url).query)['page'][0]) + 1):
list_of_next_pages.append(base_url_for_next_page+str(pageno))
else:
list_of_next_pages.append(categorized_apps_url)
Я получаю следующую ошибку:
urllib2.urlopen(categorized_apps_url)
File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 400, in open
response = self._open(req, data)
File "/usr/lib/python2.7/urllib2.py", line 418, in _open
'_open', req)
File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
result = func(*args)
File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
return self.do_open(httplib.HTTPConnection, req)
File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
raise URLError(err)
urllib2.URLError: <urlopen error [Errno -2] Name or service not known>
должен ли я заботиться о чем-то конкретном, когда я выполняю urlopen? Потому что я не вижу проблемы с HTTP-ссылками, которые я получить.
[редактирование] При втором запуске я получил следующую ошибку:
File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 400, in open
response = self._open(req, data)
File "/usr/lib/python2.7/urllib2.py", line 418, in _open
'_open', req)
File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
result = func(*args)
File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
return self.do_open(httplib.HTTPConnection, req)
File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
raise URLError(err)
тот же код отлично работает на Mac моего друга, но не работает в моем ubuntu 12.04.
также я попытался запустить код в scrapper wiki, и он успешно завершился. Но несколько url-адресов отсутствовали (по сравнению с mac). Есть ли причины для такого поведения?
2 ответов
код работает на моем Mac и на mac ваших друзей. Он отлично работает с экземпляром виртуальной машины Ubuntu 12.04 server. Очевидно, что в вашей конкретной среде есть что - то-ваша ОС (рабочий стол Ubuntu?) или сеть, которая вызывает его дерьмо. Например, настройка по умолчанию моего домашнего маршрутизатора регулирует количество вызовов в тот же домен в X секундах - и может вызвать такую проблему, если я не выключу ее. Это может быть несколько вещей.
на данном этапе I предложил бы рефакторинг вашего кода, чтобы поймать URLError
и отложите проблемные URL-адреса для повторной попытки. Также регистрируйте / печатайте ошибки, если они терпят неудачу после нескольких попыток. Может быть, даже бросить в какой-то код, чтобы время ваших звонков между ошибками. Это лучше, чем ваш скрипт просто не сработает, и вы получите обратную связь о том, является ли это просто конкретными URL-адресами, вызывающими проблему или проблему времени (т. е. он терпит неудачу после x числа urlopen
вызовы, или если он терпит неудачу после X числа urlopen
вызовы в x количество микро/сек). Если это вопрос времени, просто time.sleep(1)
вставить в петли может сделать трюк.
SyncMaster,
Я столкнулся с той же проблемой недавно после прыжка на старый ящик ubuntu, с которым я не играл некоторое время. Эта проблема на самом деле вызвана настройками DNS на вашем компьютере. Я настоятельно рекомендую вам проверить настройки DNS (/etc/resolv.conf и add nameserver 8.8.8.8), а затем повторите попытку, вы должны встретить успех.