<div>divbox</div> <p>para1</p> <p>para2</p> <p>para3</p> <table class="table"><tr><td></td></tr></table> <p>para4</p> <p>para5</p>
кто-нибудь, пожалуйста, скажите мне, как я могу проанализировать эту страницу html, чтобы отображать ТОЛЬКО para1, para2 и para3? и удалить все остальное.
состояние:
Я хочу получить все содержимое с первого <p>
до первого <table class="table">
.
(первая таблица всегда будет иметь класс «таблица»)
вывод:
<p>para1</p> <p>para2</p> <p>para3</p>
$d = new domdocument(); libxml_use_internal_errors(true); $d->loadHTML($file); foreach ($d->getElementsByTagName("*") as $el) { if ($el->tagName == "p") echo $el->textContent, "\n"; elseif ($el->tagName == "table") break; }
Это дает :
para1 para2 para3