Как получить заголовок страницы в запросах

Question

Как получить заголовок страницы в запросах

что бы быть самый простой способ получить заголовок страницы в запросах?

r = requests.get('http://www.imdb.com/title/tt0108778/')
# ? r.title
Friends (TV Series 1994–2004) - IMDb

8

html html-parsing python

автор: alecxe

5 ответов

автор: alecxe · Accepted Answer · 2017-05-23 12:25:51

вам нужен HTML-парсер для анализа HTML-ответа и получения тега:

пример использования lxml.html:

>>> import requests
>>> from lxml.html import fromstring
>>> r = requests.get('http://www.imdb.com/title/tt0108778/')
>>> tree = fromstring(r.content)
>>> tree.findtext('.//title')
u'Friends (TV Series 1994\u20132004) - IMDb'

есть конечно и другие варианты, как, например, mechanize библиотека:

>>> import mechanize
>>> br = mechanize.Browser()
>>> br.open('http://www.imdb.com/title/tt0108778/')
>>> br.title()
'Friends (TV Series 1994\xe2\x80\x932004) - IMDb'

какой вариант выбрать зависит от того, что вы собираетесь делать дальше: разбирать страницу, чтобы получить больше данных, или, может быть, вы хотите взаимодействовать с ним: нажмите кнопки, Отправить формы, следуйте ссылкам так далее.

кроме того, вы можете использовать API, предоставляемый IMDB, вместо того, чтобы перейти к синтаксическому анализу HTML, см.:

пример использования IMDbPY пакет:

>>> from imdb import IMDb
>>> ia = IMDb()
>>> movie = ia.get_movie('0108778')
>>> movie['title']
u'Friends'
>>> movie['series years']
u'1994-2004'

автор: Greg · Accepted Answer · 2014-11-08 01:05:56

вы можете использовать beautifulsoup для анализа HTML.

установите его с помощью pip install beautifulsoup4

>>> import requests
>>> r = requests.get('http://www.imdb.com/title/tt0108778/')
>>> import bs4
>>> html = bs4.BeautifulSoup(r.text)
>>> html.title
<title>Friends (TV Series 1994–2004) - IMDb</title>
>>> html.title.text
u'Friends (TV Series 1994\u20132004) - IMDb'

автор: Rahul Chawla · Accepted Answer · 2017-12-06 11:26:25

нет необходимости импортировать другие библиотеки. Запрос имеет эту встроенную функциональность.

>>> hearders = {'headers':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:51.0) Gecko/20100101 Firefox/51.0'}
>>> n = requests.get('http://www.imdb.com/title/tt0108778/', headers=hearders)
>>> al = n.text
>>> al[al.find('<title>') + 7 : al.find('</title>')]
u'Friends (TV Series 1994\u20132004) - IMDb'

обновление после ZN13 это комментарий

>>> import re
>>> import requests
>>> n = requests.get('https://www.libsdl.org/release/SDL-1.2.15/docs/html/guideinputkeyboard.html')
>>> al = n.text
>>> d = re.search('<\W*title\W*(*)</title', al, re.IGNORECASE)
>>> d.group(1)
u'Handling the Keyboard'

это будет работать для всех случаев, присутствуют ли дополнительные не алфавитные символы с тегом заголовка или нет.

автор: Vitaly Zdanevich · Accepted Answer · 2017-11-11 09:24:55

регулярное выражение с lookbehind и lookforward:

re.search('(?<=<title>).+?(?=</title>)', mytext, re.DOTALL).group().strip()

re.DOTALL потому что заголовок может иметь новый символ строки \n

автор: 井上智文 · Accepted Answer · 2018-04-26 01:33:57

Pythonic HTML синтаксический анализ для людей.

from requests_html import HTMLSession

print(HTMLSession().get('http://www.imdb.com/title/tt0108778/').html.find('title', first=True).text)