DOMDocument удалить теги скриптов из источника HTML
Я @Alex подход здесь для удаления тегов скриптов из HTML-документа с помощью встроенного DOMDocument. Проблема в том, что если у меня есть тег скрипта с содержимым Javascript, а затем другой тег скрипта, который ссылается на внешний исходный файл Javascript, не все теги скрипта удаляются из HTML.
$result = '
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>
hey
</title>
<script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js"></script>
<script>
alert("hello");
</script>
</head>
<body>hey</body>
</html>
';
$dom = new DOMDocument();
if($dom->loadHTML($result))
{
$script_tags = $dom->getElementsByTagName('script');
$length = $script_tags->length;
for ($i = 0; $i < $length; $i++) {
if(is_object($script_tags->item($i)->parentNode)) {
$script_tags->item($i)->parentNode->removeChild($script_tags->item($i));
}
}
echo $dom->saveHTML();
}
вышеуказанный код выводит наружу:
<html>
<head>
<meta charset="utf-8">
<title>hey</title>
<script>
alert("hello");
</script>
</head>
<body>
hey
</body>
</html>
Как вы можете видеть из вывода, был снят только внешний тег script. Быть там все, что я могу сделать, чтобы убедиться, что все теги скриптов удалены?
2 ответов
чтобы избежать этого, вы получите сюрпризы live список узлов -- который становится короче при удалении узлов -- вы можете работать с копией в массив, используя iterator_to_array
:
foreach(iterator_to_array($dom->getElementsByTagName($tag)) as $node) {
$node->parentNode->removeChild($node);
};