Регулярное выделить весь текст между тегами

Question

Регулярное выделить весь текст между тегами

каков наилучший способ выбрать весь текст между 2 тегами-например: текст между всеми тегами " pre " на странице.

86

html html-parsing regex

автор: user990423

13 ответов

автор: PyKing · Accepted Answer · 2011-08-23 21:00:44

можно использовать "<pre>(.*?)</pre>", (заменяя pre любым текстом, который вы хотите) и извлеките первую группу (для более конкретных инструкций укажите язык), но это предполагает упрощенное представление о том, что у вас очень простой и действительный HTML.

Как предложили другие комментаторы, если вы делаете что-то сложное, используйте парсер HTML.

автор: zac · Accepted Answer · 2015-03-17 11:21:27

тег может быть завершен в другой строке. Вот почему \n необходимо добавить.

<PRE>(.|\n)*?<\/PRE>

автор: DevWL · Accepted Answer · 2018-01-31 16:40:51

это то, что я бы использовал.

(?<=(<pre>))(\w|\d|\n|[().,\-:;@#$%^&*\[\]"'+–/\/®°⁰!?{}|`~]| )+?(?=(</pre>))

это:

(?<=(<pre>)) выбор нужно писать <pre> tag

(\w|\d|\n|[().,\-:;@#$%^&*\[\]"'+–/\/®°⁰!?{}|~]| ) Это просто регулярное выражение, которое я хочу применить. В этом случае он выбирает букву или цифру или символ новой строки или некоторые специальные символы, перечисленные в Примере в квадратных скобках. Символ | просто значит "или".

+? плюс состояния символов для выбора одного или нескольких из вышеперечисленных порядков не имеют значения. вопрос изменяет поведение по умолчанию с "жадный" на "ungreedy".

(?=(</pre>)) выбор должен быть добавлен к <pre> tag

в зависимости от вашего варианта использования может потребоваться добавить некоторые модификаторы как (я или m)

я - регистр
m - многострочный поиск

здесь я выполнил этот поиск в Sublime Text, поэтому мне не пришлось использовать модификаторы в моем регулярном выражении.

Javascript не поддерживает lookbehind

приведенный выше пример должен отлично работать с такими языками, как PHP, Perl, Java ... Javascript, однако, не поддерживает lookbehind, поэтому мы должны забыть об использовании (?<=(<pre>)) и ищите какое-то обходное решение. Возможно, просто очистите первые четыре символа от нашего результата для каждого выбора, как здесь регулярное выражение соответствует тексту между тегами

также Посмотри ДОКУМЕНТАЦИЯ ПО РЕГУЛЯРНОМУ ВЫРАЖЕНИЮ JAVASCRIPT на незахватывающие скобки

автор: Shravan Ramamurthy · Accepted Answer · 2018-08-20 15:56:43

используйте приведенный ниже шаблон для получения содержимого между элементами. Замените [tag] фактическим элементом, из которого вы хотите извлечь содержимое.

<[tag]>(.+?)</[tag]>

иногда теги имеют атрибуты, такие как anchor тега, имеющего href, затем используйте следующий шаблон.

 <[tag][^>]*>(.+?)</[tag]>

автор: sg3s · Accepted Answer · 2017-05-23 12:26:29

вы не должны пытаться анализировать html с помощью regexes see этот вопрос и как это получилось.

проще говоря, html не является регулярным языком, поэтому вы не можете полностью анализировать регулярные выражения.

сказав, что вы можете анализировать подмножества html, когда нет подобных вложенных тегов. Так что, пока что-то между и не является самим тегом, это будет работать:

preg_match("/<([\w]+)[^>]*>(.*?)<\/>/", $subject, $matches);
$matches = array ( [0] => full matched string [1] => tag name [2] => tag content )

лучше использовать парсер, как родной DOMDocument, чтобы загрузить html, затем выберите тег и получить внутренний html, который может выглядеть примерно так:

$obj = new DOMDocument();
$obj -> load($html);
$obj -> getElementByTagName('el');
$value = $obj -> nodeValue();

и поскольку это правильный парсер, он сможет обрабатывать теги вложенности и т. д.

автор: Heriberto Rivera · Accepted Answer · 2015-10-23 18:31:58

попробуйте это....

(?<=\<any_tag\>)(\s*.*\s*)(?=\<\/any_tag\>)

3

автор: Heriberto Rivera

автор: Shishir Arora · Accepted Answer · 2017-08-28 01:41:51

var str = "Lorem ipsum <pre>text 1</pre> Lorem ipsum <pre>text 2</pre>";
    str.replace(/<pre>(.*?)<\/pre>/g, function(match, g1) { console.log(g1); });

Так как принятый ответ без кода javascript, поэтому добавив, что:

автор: Jean-Simon Collard · Accepted Answer · 2018-07-04 19:31:13

чтобы исключить обрамляющих тегов:

"(?<=<pre>)(.*?)(?=</pre>)"

1

автор: Jean-Simon Collard

автор: Dilip · Accepted Answer · 2016-11-16 22:18:11

на несколько строк:

<htmltag>(.+)((\s)+(.+))+</htmltag>

0

автор: Dilip

автор: Ambrish Rajput · Accepted Answer · 2017-02-17 15:10:32

можно использовать Pattern pattern = Pattern.compile( "[^<'tagname'/>]" );

0

автор: Ambrish Rajput

автор: T.Todua · Accepted Answer · 2017-11-29 14:50:08

Я использую такое решение:

preg_match_all( '/<((?!<)(.|\n))*?\>/si',  $content, $new);
var_dump($new);

автор: maqduni · Accepted Answer · 2018-08-30 09:19:02

Это, видимо, самое простое регулярное выражение из всех, что я нашел

(?:<TAG>)([\s\S]*)(?:<\/TAG>)

исключить открывающий тег (?:<TAG>) от матчей
включить любые пробелы или символы без пробелов ([\s\S]*) в игре
исключить закрывающий тег (?:<\/TAG>) из матчей

автор: user5988518 · Accepted Answer · 2016-02-26 23:04:04

<pre>([\r\n\s]*(?!<\w+.*[\/]*>).*[\r\n\s]*|\s*[\r\n\s]*)<code\s+(?:class="(\w+|\w+\s*.+)")>(((?!<\/code>)[\s\S])*)<\/code>[\r\n\s]*((?!<\w+.*[\/]*>).*|\s*)[\r\n\s]*<\/pre>