Получить HTML-источник WebElement в Selenium WebDriver с помощью Python

Question

Получить HTML-источник WebElement в Selenium WebDriver с помощью Python

Я использую привязки Python для запуска Selenium WebDriver.

from selenium import webdriver
wd = webdriver.Firefox()

Я знаю,что могу захватить веб-элемент так...

elem = wd.find_element_by_css_selector('#my-id')

и я знаю,что могу получить полный источник страницы...

wd.page_source

но в любом случае, чтобы получить "исходный элемент"?

elem.source   # <-- returns the HTML as a string

документы selenium webdriver для Python в основном не существуют, и я не вижу ничего в коде, который, похоже, включает эту функциональность.

любые мысли о лучший способ получить доступ к HTML элемент (и его дети)?

336

automated-tests python selenium selenium-webdriver webdriver

автор: Mohsin Awan

13 ответов

автор: Nerijus · Accepted Answer · 2017-12-16 15:56:37

вы можете узнать innerHTML атрибут, чтобы получить источник контент или outerHTML источник С текущий элемент.

Python:

element.get_attribute('innerHTML')

Java:

elem.getAttribute("innerHTML");

C#:

element.GetAttribute("innerHTML");

Руби:

element.attribute("innerHTML")

JS:

element.getAttribute('innerHTML');

PHP:

$elem.getAttribute('innerHTML');

протестировано и работает с ChromeDriver.

автор: nilesh · Accepted Answer · 2014-10-24 19:10:49

на самом деле нет прямого способа получить исходный код html веб-элемента. Вам придется использовать JS. Я не слишком уверен в привязках python, но вы можете легко сделать это на Java. Я уверен, что должно быть что-то похожее на JavascriptExecutor класс в Python.

 WebElement element = driver.findElement(By.id("foo"));
 String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element);

автор: Mark · Accepted Answer · 2013-04-11 18:40:30

конечно, мы можем получить весь исходный код HTML с помощью этого скрипта ниже в Selenium Python:

elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")

Если вы хотите сохранить его в файл:

f = open('c:/html_source_code.html', 'w')
f.write(source_code.encode('utf-8'))
f.close()

Я предлагаю сохранить в файл, потому что исходный код очень длинный.

автор: John Alberts · Accepted Answer · 2014-10-24 19:11:35

в Ruby, используя selenium-webdriver (2.32.1), есть page_source метод, содержащий весь источник страницы.

автор: Tiffany G · Accepted Answer · 2013-03-22 16:07:00

использование метода атрибутов на самом деле проще и более прямолинейно.

используя Ruby с драгоценными камнями Selenium и PageObject, чтобы получить класс, связанный с определенным элементом, строка будет element.attribute(Class).

то же самое относится, если вы хотите получить другие атрибуты, привязанные к элементу. Например, если мне нужна строка элемента,element.attribute(String).

автор: nefski · Accepted Answer · 2014-03-13 21:45:33

выглядит устаревшим, но пусть это будет здесь в любом случае. Правильный способ сделать это в вашем случае:

elem = wd.find_element_by_css_selector('#my-id')
html = wd.execute_script("return arguments[0].innerHTML;", elem)

или

html = elem.get_attribute('innerHTML')

оба работают на меня (selenium-server-standalone-2.35.0)

автор: WltrRpo · Accepted Answer · 2016-03-29 21:25:03

Java с селеном 2.53.0

driver.getPageSource();

1

автор: WltrRpo

автор: oleksii.burdin · Accepted Answer · 2016-04-07 23:09:29

Я надеюсь, что это может помочь: http://selenium.googlecode.com/svn/trunk/docs/api/java/org/openqa/selenium/WebElement.html

Здесь описан метод Java:

java.lang.String    getText()

но, к сожалению, он недоступен в Python. Таким образом, вы можете перевести имена методов на Python из Java и попробовать другую логику, используя настоящие методы, не получая весь источник страницы...

Э. Г.

 my_id = elem[0].get_attribute('my-id')

автор: Zorgijs · Accepted Answer · 2014-05-30 10:42:42

и в тесте Селена PHPUnit это так:

$text = $this->byCssSelector('.some-class-nmae')->attribute('innerHTML');

автор: StanleyD · Accepted Answer · 2016-04-07 22:35:04

Если вас интересует решение для удаленного управления в Python, вот как получить innerHTML:

innerHTML = sel.get_eval("window.document.getElementById('prodid').innerHTML")

автор: Shubham Jain · Accepted Answer · 2017-09-03 07:18:46

InnerHTML вернет элемент внутри выбранного элемента, а outerHTML вернется внутри HTML вместе с выбранным элементом

пример :- Теперь предположим, что ваш элемент находится ниже

<tr id="myRow"><td>A</td><td>B</td></tr>

вывод элемента innerHTML

<td>A</td><td>B</td>

вывод элемента outerHTML

<tr id="myRow"><td>A</td><td>B</td></tr>

Живой Пример :-

http://www.java2s.com/Tutorials/JavascriptDemo/f/find_out_the_difference_between_innerhtml_and_outerhtml_in_javascript_example.htm

ниже вы найдете синтаксис, который требует в соответствии с другой привязкой. Изменить innerHTML to outerHTML согласно необходимому.

Python:

element.get_attribute('innerHTML')

Java:

elem.getAttribute("innerHTML");

если вы хотите использовать всю страницу HTML ниже кода: -

driver.getPageSource();

автор: Rusty · Accepted Answer · 2018-02-05 04:57:48

метод получения отображаемого HTML, который я предпочитаю, следующий:

driver.get("http://www.google.com")
body_html = driver.find_element_by_xpath("/html/body")
print body_html.text

однако вышеуказанный метод удаляет все теги (да и вложенные теги ) и возвращает только текстовое содержимое. Если вы также заинтересованы в получении разметки HTML, используйте метод ниже.

print body_html.getAttribute("innerHTML")

автор: Ilya · Accepted Answer · 2012-10-05 14:25:50

WebElement element = driver.findElement(By.id("foo"));
String contents = (String)((JavascriptExecutor)driver).executeScript("return      arguments[0].innerHTML;", element);

этот код действительно работает, чтобы получить JavaScript из источника!