BeautifulSoup ответы с ошибкой

Question

BeautifulSoup ответы с ошибкой

Я пытаюсь намочить ноги с BS. Я попытался работать через документацию, но на самом первом шаге я столкнулся уже с проблемой.

Это мой код:

from bs4 import BeautifulSoup
soup = BeautifulSoup('https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5....1b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description')

print(soup.prettify())

это ответ, который я получаю:

Warning (from warnings module):
File "/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/site-packages/bs4/__init__.py", line 189
'"%s" looks like a URL. Beautiful Soup is not an HTTP client. You should probably use an     
HTTP client to get the document behind the URL, and feed that document to Beautiful Soup.' % markup)
UserWarning: "https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5...b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description" 
looks like a URL. Beautiful Soup is not an HTTP client. You should 
probably use an HTTP client to get the document behind the URL, and feed that document    
to Beautiful Soup.
https://api.flickr.com/services/rest/?method=flickr.photos.search&amp;api;_key=5...b&amp;per;_page=250&amp;accuracy;=1&amp;has;_geo=1&amp;extras;=geo,tags,views,description

это потому, что я пытаюсь вызвать http**s** или это другая проблема? Спасибо за помощь!

8

beautifulsoup html html-parsing python

автор: alecxe

2 ответов

автор: alecxe · Accepted Answer · 2014-07-15 22:06:03

вы передаете URL как строку. Вместо этого вам нужно получить источник страницы через urllib2 или requests:

from urllib2 import urlopen  # for Python 3: from urllib.request import urlopen
from bs4 import BeautifulSoup

URL = 'https://api.flickr.com/services/rest/?method=flickr.photos.search&api_key=5....1b&per_page=250&accuracy=1&has_geo=1&extras=geo,tags,views,description'
soup = BeautifulSoup(urlopen(URL))

обратите внимание, что вам не надо называть read() в результате urlopen(), BeautifulSoup допускает первый аргумент-файл-как объект, urlopen() возвращает объект, подобный файлу.

автор: Bartlomiej Lewandowski · Accepted Answer · 2014-07-15 21:59:07

ошибка говорит Все, вы передаете URL-адрес красивого супа. Вам нужно сначала получить контент веб-сайта, а только затем передать контент в BS.

для загрузки контента вы можете использовать urlib2

import urllib2
response = urllib2.urlopen('http://www.example.com/')
html = response.read()

и позже

soup = BeautifulSoup(html)