Articles of html parsing

Разбирайте html с помощью PHP и зациклируйте строки и столбцы таблицы?

Я пытаюсь разобрать HTML из loadHTML, но у меня возникли проблемы, мне удалось пропустить все <tr> s в документе, но я не знаю, как прокручивать <td> s в каждой строке. Это то, что я сделал до сих пор: $DOM->loadHTML($url); $rows= $DOM->getElementsByTagName('tr'); for ($i = 0; $i < $rows->length; $i++) { // loop through rows // […]

Какой HTML Parser (желательно PHP) поддерживает получение смещения текущего узла во входной строке?

Я ищу HTML или XML-парсер, который позволяет получить доступ к смещению / позиции текущего элемента во входной строке или файле . Например, если пройти через эту строку: <div> <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit</p> <p>sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.</p> </div> Я ищу способ получить начальную позицию (включая […]

DOMDocument удаляет теги сценариев из источника HTML

Я использовал подход @ Alex здесь, чтобы удалить теги сценариев из HTML-документа, используя встроенный DOMDocument. Проблема в том, что если у меня есть тег скрипта с содержимым Javascript, а затем другой тег скрипта, который ссылается на внешний исходный файл Javascript, не все теги скриптов удаляются из HTML. $result = ' <!doctype html> <html> <head> <meta […]

Это лучший способ импортировать тело DOMDocument (HTML) в другое?

Возможный дубликат: Как вставить HTML в PHP DOMNode? Продолжая этот вопрос , вот код, который я собираюсь начать использовать: function getHTMLDOMSegment( $file ) { $doc = new DOMDocument(); $doc->loadHTMLFile( $file ); $body = $dom->getElementsByTagName('body')->item(0); return $body->childNodes; } Затем я просто перебирал детей, используя importNode и добавляя каждый, где бы они ни находились, в другой DOMDocument, […]

php preg_replace для свойства внутри html-тегов

Моя проблема заключается в том, как заменить значение src <script> внутри строки, как в этом примере (ну, мне нужно это в более общем сценарии свойств внутри тегов): $data = <<<EOD <script language="javascript" src= "../tests/ajax-navigation.js"></script> … <img src="../404.jpg" alt="404"> … EOD; Я использовал эту функцию в php: class Search{ public static function replaceProperty($data, $start, $end, $property, […]

Анализ между комментариями в Simple HTML Dom

Могу ли я получить данные между двумя комментариями html с помощью Simple HTML Dom? Например, см. Приведенный ниже код: <!– start of comment –> <a href="link1.html" target="_blank">link1</a><br /> <a href="link2.html" target="_blank">link2</a><br /> <a href="link3.html" target="_blank">link3</a><br /> <a href="link4.html" target="_blank">link4</a><br /> <!– end of comment–> <a href="link5.html" target="_blank">link5</a><br /> <a href="link6.html" target="_blank">link6</a><br /> Всего шесть ссылок […]

Ошибка zend_mm_heap с помощью simple_html_dom

Я пытаюсь разобрать HTML-файл с simplehtmldom, и я получаю эту ошибку: zend_mm_heap corrupted после примерно 4 секунд выполнения в файле HTML 8231 строк. Может ли это быть ошибкой или просто чрезмерным использованием памяти?

Время загрузки: быстрее ли анализировать HTML с помощью DOMDocument PHP или с регулярными выражениями?

Я вытаскиваю изображения из своей учетной записи Flickr на свой сайт, и я использовал около девяти строк кода для создания функции preg_match_all, которая вытягивала бы изображения. Я несколько раз читал, что лучше анализировать HTML через DOM. Лично мне было сложнее разобрать HTML через DOM. Я создал аналогичную функцию, чтобы вытащить изображения с помощью DOMDocument PHP, […]

PHP DOMDocument :: loadHTML () : htmlParseEntityRef: нет имени в Entity

Я пытаюсь получить элементы «ссылки» с определенных веб-страниц. Я не могу понять, что я делаю неправильно. Я получаю следующую ошибку: Уровень важности: предупреждение Сообщение: DOMDocument :: loadHTML () [domdocument.loadhtml]: htmlParseEntityRef: нет имени в Entity, строка: 536 Имя файла: controllers / test.php Номер строки: 34 Строка 34 в коде: $dom->loadHTML($html); мой код: $url = "http://www.amazon.com/"; $ch […]

Как открыть url с арабским текстом, используя функцию php file-get-contents

Я хочу получить html с URL-адреса с некоторым арабским языком http://www.example.com/2013/07/31/الاختبار.html используя php. Я попытался с file_get_html("http://www.example.com/2013/07/31/الاختبار.html") но он дает следующую ошибку Warning: file_get_contents(http://www.example.com/2013/07/31/الاختبار.html) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.0 404 Not Found in filename.php Пожалуйста помоги. http://www.example.com/2013/07/31/الاختبار.html только для справки, не существует.