PHP « PHP получить текст, регулярное выражение

Как вытащить текст, НЕ находящийся в тегах ?
Тоесть из текста:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }

Это большой текст, <b>слово</b> и продолжение.
 

С помощью регулярного выражение получить текст:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }

Это большой текст, и продолжение.
 

Тоесть - просто вырезать теги.
strip_tags не подходит, т.к. регулярное выражение нужно для preg_replace.

1 ответов



preg_replace('/<[^<>]+(>.*?<\/[[:alpha:]]+|\/)>/', '', $my_txt);
 
отлавливает парные и одиночные xhtml/xml-теги

Вот выражение:

(<.+?>.*?<\/.+?>)/gmi
Этим выражением можно вырезать все теги и останется только текст.
p.s. в PHP не силен, поэтому только регулярка.

Задачка интересная. Но что-то я пока не вижу универсального решения основанного только на регулярных выражениях. Хотелось бы увидеть более полное описание задачи.

Если у вас есть текст, внутри которого какие-то специальные слова (например ссылки на источники) помечены какими-либо тэгами, то решение есть. А если теги вполне конкретные, то задача будет ещё проще.

Давайте рассуждать:
Вот регулярное выражение, которое вытащит текст находящийся между любыми закрывающим тегом и открывающим тегом:


preg_match_all('/<\/.*?>(.*?)<[^\/].*?>/sm', $str, $matches);
 
При этом не будут захватываться текст от начала строковой переменной до первого открывающего тэга и от последнего закрывающего тэга до конца строки. Если вы анализируете целую HTML страницу, то такого текста быть и не должно (правда в этом случае эта регулярка бессмысленна - ниже почему). А если анализируете только какую-то контентную часть, то надо добавить через ИЛИ (символ |) пару дополнительных условий, на начало и конец строки. Получится так:

preg_match_all('/^(.*?)<[^\/].*?>|<\/.*?>(.*?)<[^\/].*?>|<\/.*?>(.*?)$/sm', $str, $matches);
 
Но такое условие обработает только HTML без вложенных тэгов. То есть ли у нас есть текст:

 <b>word <i>cite</i> word</b>
 то регулярное выражение возьмет текст от открывающего тега b до закрывающего тэга i.

Учитывая скудное описание вашей задачи - это решение вполне может подойти если надо только вырезать из текста какие-то специальные пометки. Сделать в данном случае какое-то более универсальное решение основанное только на регулярках и подходящие под HTML любой сложности, будет очень сложно (а может и невозможно).

P.S. Но вполне возможно что если вы более полно опишите суть задачи - можно будет найти более эффективное решение.

Вот примерный текст:


Красивой темы windows 7 и так далее.
 

Суть вопроса:
1. Вначале в тексте заменяется темы windows 7 на :

<a href="#" title="темы windows 7">темы windows 7</a>
 
Текст становится:

windows, Красивой <a href="#" title="темы windows 7">темы windows 7</a> и так далее.
 

2. Нужно заменить слово windows на:

<a href="#" title="windows">windows</a>
 
Текст становится:

<a href="#" title="windows">windows</a>, Красивой <a href="#" title="темы <a href="#" title="windows">windows</a> 7">темы <a href="#" title="windows">windows</a> 7</a> и так далее.
 

Так вот, вторая замена -
Первое слово windows оно заменяет нормально (т.к. оно не находится внутри тега)
Второе слово находится в title (а третье - в самой ссылке ) - такие слова заменять не нужно, т.к. рушится структура ссылки.