Есть ли лучший подход к анализу недействительного HTML, а затем применение Tidy на нем?
Сторона Примечание: Есть некоторая ситуация, когда вы не можете иметь Tidy. Regexp также не рекомендуется для разбора html.
Я бы попробовал что-то вроде этого: http://php.net/manual/en/domdocument.loadhtml.php
С этой страницы:
Функция анализирует HTML, содержащийся в источнике строки. В отличие от загрузки XML, HTML не должен быть хорошо сформирован для загрузки . Эта функция также может быть вызвана статически для загрузки и создания объекта DOMDocument.
Известно, что SimpleHTMLDOM является более мягким, чем встроенные функции DOM PHP.