Я разбираю и извлекаю html-документы в DOMDocument. Эти документы представляют собой дочерние формы, которые будут отображаться внутри другой страницы. Сохраняя анализируемые DOMDocuments, он автоматически добавляет теги doctype, html, head и body. так как я работаю над дочерними формами, я хотел бы удалить все эти и сохранить только дочерние теги формы. Как я могу пропустить автоматическую […]
Всем известно, что мы всегда должны использовать методы DOM вместо регулярных выражений для извлечения содержимого из HTML, но у меня возникает ощущение, что я никогда не могу доверять расширению SimpleXML или аналогичным. Я кодирую реализацию OpenID прямо сейчас, и я попытался использовать SimpleXML для открытия HTML-кода, но мой самый первый тест (с alixaxel.myopenid.com) дал много […]
Я пытаюсь разобрать HTML-код с DOMDocument, сделать что-то вроде изменений в нем, а затем собрать его обратно в строку, которую я отправляю на вывод. Но есть несколько вопросов, касающихся разбора, что означает, что то, что я отправляю в DOMDocument, не всегда возвращается в том же виде 🙂 Вот список: используя -> loadHTML : форматирует мой […]
Я пытаюсь прочитать содержимое веб-сайта, но у меня есть проблема, я хочу получить изображения, ссылки на эти элементы, но я хочу, чтобы элементы были самими собой, а не содержимое элемента, например, я хочу получить это: я хочу получить весь этот элемент. Как я могу это сделать.. <?php $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, "http://www.link.com"); curl_setopt($ch, CURLOPT_RETURNTRANSFER, […]
У меня вопрос относительно использования DOMDocument и создания XML. У меня есть PHP-программа, которая загружает в XML-файл обрабатывает каждый узел (строку) XML; отправляет его другому процессу, который затем возвращает элемент XML Я получаю строковое представление узла, чтобы я мог создать (добавить) к новому результирующему дереву XML для возврата к клиенту Проблема в том, что XML […]
Я пытаюсь разобрать ответ xml с другого сервера. Я могу получить нужные объекты из этого xml. но несколько раз, и некоторые, как, я не могу получить некоторые объекты. и эта ошибка появляется. Неустранимая ошибка: вызов функции-члена getElementsByTagName () для не объекта в строке 91 Я проверил все, и я думаю, что нет ничего плохого. вот […]
Я написал эту часть кода, которая анализирует шаблоны страниц, которые содержат контент, который выглядит следующим образом: <h3>Title 1</h3> <table> <tr> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> </tr> <tr> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> </tr> <tr> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> </tr> </table> <h3>Title 2</h3> <table> <tr> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> </tr> […]
Я хотел бы добавить класс CSS ко всем изображениям на странице (WordPress post / pages), которые ниже определенной ширины. Следующие работы, но setAttribute заменяет все имена классов в каждом img новым. Как добавить новый класс к каждому изображению без замены существующих классов? function add_class_to_small_images( $content ) { $dom = new DOMDocument(); @$dom->loadHTML( $content ); $dom->preserveWhiteSpace […]
Как я могу использовать парсер DOM для удаления всех атрибутов в тегах span, но кроме этих двух атрибутов, <span style="text-decoration: underline;">cultura</span> принять <span style="text-decoration: line-through;">heart</span> принять отвергайте это, <span style="font-family: " lang="EN-US">May</span> принять Является ли это возможным? Мой рабочий код с другого поста, который я сделал, $content = ' <span style="text-decoration: underline;">cultura</span>l <span style="text-decoration: line-through;">heart</span> […]
Я работаю над этими tid-up-messy-html тегами с DOM, но теперь я понимаю большую проблему, $content = '<p><a href="#">this is a link</a></p>'; function tidy_html($content,$allowable_tags = null, $span_regex = null) { $dom = new DOMDocument(); $dom->loadHTML($content); // other codes return $dom->saveHTML(); } echo tidy_html($content); Он выведет всю DOM, <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> <html><body><p><a […]