PHP RegEx удалить пустые теги абзацев

Question

PHP RegEx удалить пустые теги абзацев

Я пытаюсь удалить все пустые  теги CKEditor вставляется в поле описания, но все они, похоже, различаются. Возможности кажутся:

<p></p>

<p>(WHITESPACE)</p>

<p>&nbsp;</p>

<p><br /></p>

<p>(NEWLINE)&nbsp;</p>

<p>(NEWLINE)<br /><br />(NEWLINE)&nbsp;</p>

С этими возможностями может быть любое количество пробелов,  и   теги между абзацами, и могут быть некоторые из каждого вида в одном абзаце.

Я также не уверен в   - тег, от того, что я видел, это может быть  ,   или  .

Я искал аналогичный ответ, но из всех ответов, которые я видел, все они, похоже, предназначены только для одного из этих случаев, а не для всех сразу. Я думаю, в простых терминах, что я спрашиваю, есть ли регулярное выражение, которое я могу использовать для удаления всех  теги из некоторого HTML, в которых нет буквенно-цифрового текста или символов/знаков препинания?

7

ckeditor php regex

автор: Cerbrus

2 ответов

автор: Cerbrus · Accepted Answer · 2013-01-10 15:24:23

Ну, в конфликте с моим предложением не разбирать HTML с regexes, я написал регулярное выражение, чтобы сделать именно это:

"#<p>(\s|&nbsp;|</?\s?br\s?/?>)*</?p>#"

Это будет соответствовать должным образом для:

<p></p>

<p> </p> <!-- ([space]) -->

<p> </p> <!-- (That's a [tab] character in there -->

<p>&nbsp;</p>

<p><br /></p>

<p>
&nbsp;</p>

<p>
<br /><br />
&nbsp;</p>

принцип действия:

# /                --> Regex start
# <p>              --> match the opening <p> tag
# (                --> group open.
#   \s             --> match any whitespace character (newline, space, tab)
# |                --> or
#   &nbsp;         --> match &nbsp;
# |                --> or
#   </?\s?br\s?/?> --> match the <br> tag
# )*               --> group close, match any number of any of the elements in the group
# </?p>            --> match the closing </p> tag ("/" optional)
# /                --> regex end.

автор: Luis · Accepted Answer · 2015-05-06 12:34:26

выбранный ответ отличный, но он не работает, если  тег имеет встроенные атрибуты стиля, такие как .

регулярное выражение, чтобы соответствовать этому, было бы:

#<p[^>]*>(\s|&nbsp;|</?\s?br\s?/?>)*</?p>#