PHP « PHP получить текст, регулярное выражение
Как вытащить текст, НЕ находящийся в тегах ?
Тоесть из текста:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
Это большой текст, <b>слово</b> и продолжение.
С помощью регулярного выражение получить текст:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
Это большой текст, и продолжение.
Тоесть - просто вырезать теги.
strip_tags не подходит, т.к. регулярное выражение нужно для preg_replace.
Тоесть из текста:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
Это большой текст, <b>слово</b> и продолжение.
С помощью регулярного выражение получить текст:
/** * GeSHi (C) 2004 - 2007 Nigel McNie, 2007 - 2008 Benny Baumann * (http://qbnz.com/highlighter/ and http://geshi.org/) */ .php.geshi_code {font-family:monospace;} .php.geshi_code .imp {font-weight: bold; color: red;} .php.geshi_code .kw1 {color: #b1b100;} .php.geshi_code .kw2 {color: #000000; font-weight: bold;} .php.geshi_code .kw3 {color: #990000;} .php.geshi_code .co1 {color: #666666; font-style: italic;} .php.geshi_code .co2 {color: #666666; font-style: italic;} .php.geshi_code .co3 {color: #0000cc; font-style: italic;} .php.geshi_code .co4 {color: #009933; font-style: italic;} .php.geshi_code .coMULTI {color: #666666; font-style: italic;} .php.geshi_code .es0 {color: #000099; font-weight: bold;} .php.geshi_code .es1 {color: #000099; font-weight: bold;} .php.geshi_code .es2 {color: #660099; font-weight: bold;} .php.geshi_code .es3 {color: #660099; font-weight: bold;} .php.geshi_code .es4 {color: #006699; font-weight: bold;} .php.geshi_code .es5 {color: #006699; font-weight: bold; font-style: italic;} .php.geshi_code .es6 {color: #009933; font-weight: bold;} .php.geshi_code .es_h {color: #000099; font-weight: bold;} .php.geshi_code .br0 {color: #009900;} .php.geshi_code .sy0 {color: #339933;} .php.geshi_code .sy1 {color: #000000; font-weight: bold;} .php.geshi_code .st0 {color: #0000ff;} .php.geshi_code .st_h {color: #0000ff;} .php.geshi_code .nu0 {color: #cc66cc;} .php.geshi_code .nu8 {color: #208080;} .php.geshi_code .nu12 {color: #208080;} .php.geshi_code .nu19 {color:#800080;} .php.geshi_code .me1 {color: #004000;} .php.geshi_code .me2 {color: #004000;} .php.geshi_code .re0 {color: #000088;} .php.geshi_code span.xtra { display:block; }
Это большой текст, и продолжение.
Тоесть - просто вырезать теги.
strip_tags не подходит, т.к. регулярное выражение нужно для preg_replace.
1 ответов
preg_replace('/<[^<>]+(>.*?<\/[[:alpha:]]+|\/)>/', '', $my_txt);
отлавливает парные и одиночные xhtml/xml-теги
Вот выражение:
(<.+?>.*?<\/.+?>)/gmi
Этим выражением можно вырезать все теги и останется только текст.
p.s. в PHP не силен, поэтому только регулярка.
Этим выражением можно вырезать все теги и останется только текст.
p.s. в PHP не силен, поэтому только регулярка.
Задачка интересная. Но что-то я пока не вижу универсального решения основанного только на регулярных выражениях. Хотелось бы увидеть более полное описание задачи.
Если у вас есть текст, внутри которого какие-то специальные слова (например ссылки на источники) помечены какими-либо тэгами, то решение есть. А если теги вполне конкретные, то задача будет ещё проще.
Давайте рассуждать:
Вот регулярное выражение, которое вытащит текст находящийся между любыми закрывающим тегом и открывающим тегом:
preg_match_all('/<\/.*?>(.*?)<[^\/].*?>/sm', $str, $matches);
При этом не будут захватываться текст от начала строковой переменной до первого открывающего тэга и от последнего закрывающего тэга до конца строки. Если вы анализируете целую HTML страницу, то такого текста быть и не должно (правда в этом случае эта регулярка бессмысленна - ниже почему). А если анализируете только какую-то контентную часть, то надо добавить через ИЛИ (символ |) пару дополнительных условий, на начало и конец строки. Получится так:
preg_match_all('/^(.*?)<[^\/].*?>|<\/.*?>(.*?)<[^\/].*?>|<\/.*?>(.*?)$/sm', $str, $matches);
Но такое условие обработает только HTML без вложенных тэгов. То есть ли у нас есть текст:
<b>word <i>cite</i> word</b>
то регулярное выражение возьмет текст от открывающего тега b до закрывающего тэга i.
Учитывая скудное описание вашей задачи - это решение вполне может подойти если надо только вырезать из текста какие-то специальные пометки. Сделать в данном случае какое-то более универсальное решение основанное только на регулярках и подходящие под HTML любой сложности, будет очень сложно (а может и невозможно).
P.S. Но вполне возможно что если вы более полно опишите суть задачи - можно будет найти более эффективное решение.
Вот примерный текст:
Красивой темы windows 7 и так далее.
Суть вопроса:
1. Вначале в тексте заменяется темы windows 7 на :
<a href="#" title="темы windows 7">темы windows 7</a>
Текст становится:
windows, Красивой <a href="#" title="темы windows 7">темы windows 7</a> и так далее.
2. Нужно заменить слово windows на:
<a href="#" title="windows">windows</a>
Текст становится:
<a href="#" title="windows">windows</a>, Красивой <a href="#" title="темы <a href="#" title="windows">windows</a> 7">темы <a href="#" title="windows">windows</a> 7</a> и так далее.
Так вот, вторая замена -
Первое слово windows оно заменяет нормально (т.к. оно не находится внутри тега)
Второе слово находится в title (а третье - в самой ссылке ) - такие слова заменять не нужно, т.к. рушится структура ссылки.