Articles of html content extract

как извлекать данные из необработанного html-файла

Есть ли способ извлечь требуемые данные из необработанного html, который был написан нечестно без IDs и classes ? Я имею в виду, предположим, что есть сохраненный html-файл веб-страницы (профиля), и я хочу извлечь данные вроде (скажем) «хобби». Можно ли это сделать с помощью PHP?

php, получить между улучшением функции – добавить поддержку массива

У меня есть функция, которая извлекает содержимое между двумя строками. Я использую его для извлечения конкретной информации между тэгами html. Однако в настоящее время он работает, чтобы извлечь только первое совпадение, поэтому я хотел бы знать, можно ли улучшить его таким образом, чтобы извлечь все совпадения и предоставить их в массиве. Аналогично функции preg_match_all. функция […]

Извлечение содержимого html-страницы в php

Существует какой-либо способ извлечь содержимое страницы HTML которая начинается с <body> и заканчивается </body> в php. Если кто-нибудь может отправить какой-нибудь образец кода.

php: parse html: извлекать теги скрипта из тела и вводить перед </ body>?

Мне все равно, что такое библиотека, но мне нужен способ извлечь <.script.> Элементы из <.body.> Страницы (в виде строки). Затем я хочу вставить извлеченные <.script.> S перед <./ body.>. В идеале я хотел бы извлечь <.script.> S в 2 типа; 1) Внешние (те, у которых есть атрибут src) 2) Встроенные (те, у которых есть код […]

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем веб-сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу для поиска и загрузки всех HTML-файлов, но теперь я застрял в том, как извлечь src , title и alt из этого HTML: <img src ="/image/fluffybunny.jpg" title ="Harvey the bunny" alt […]