Articles of html parsing

Как удалить теги HTML с помощью черного списка в PHP?

PHP strip_tags использует белый список для пропуска некоторых тегов, которые вы не хотите, избавлялись. Кто-нибудь знает какую-то реализацию, но использует черный список вместо белого списка?

Почему это регулярное выражение вернет ошибку?

Почему следующее оценивается как true ? if(preg_match_all('%<tr.*?>.*?<b>.*?</b>.*?</tr>%ims', $contents, $x)===FALSE) {…} $contents , извлекается с помощью file_get_contents() из этого источника . Регулярное выражение было упрощено, чтобы решить проблему. Код, который я использовал, был: if(preg_match( '%Areas of Study: </P>.*?<TABLE BORDER="0">(.*?)<TBODY>.*?</TBODY>.*? </TABLE>%ims', $contents, $course_list) ) { if(preg_match_all('%<TR>.*?<TD.*?>.*?<B>(.*?)</B>.*?</TD>.*?<TD.*?>.*?</TD>.*?<TD.*?>.*?<B>(.*?)</B>.*?</TD>.*?</TR>%ims', $course_list[0], $course_titles) ) { … } else { die('<p>ERROR: first preg_match_all […]

XML-парсер vs regex

Что я должен использовать? Я собираюсь получить ссылки, изображения, текст и т. Д. И использовать его для использования в нем, создавая статистику seo и анализ страницы. Что вы рекомендуете использовать? XML Parser или регулярное выражение Я использую регулярное выражение и никогда не имел никаких проблем с ним, однако я слышал от людей, что он не […]

Как заставить DOM Parser ждать выполнения сценариев перед анализом данных

Ive получил страницу с html-таблицей, которая использует tablesorter и сортируется onload. Я хочу, чтобы мой скрипт синтаксиса dom захватил строки из этой таблицы только после того, как он был отсортирован. Прямо сейчас он пропускает сортировку и захватывает ряды раньше.

Получить форму значения ссылки <a href>, используя php

Мне нужно извлечь значение ссылки, которое хранится в теге <a href> , используя php-код. <a href="http://stackoverflow.com/questions/ask"></a> Из приведенного выше кода я хочу извлечь ссылку http://stackoverflow.com/questions/ask используя php-код.

Как сохранить форматирование HTML без изменений при анализе с помощью DOM – (без отключения дескриптора)

Используя DOMDocument, я пытаюсь прочитать часть HTML-файла и отображать его на другой странице HTML, используя приведенный ниже код. Часть DIV, к которой я пытаюсь получить доступ, имеет несколько тегов <p> . Проблема заключается в том, что DOM анализирует файл, он только извлекает текстовое содержимое между тегами <p> – теги полосок – и форматирование абзаца теряется. […]

DOM Parser Foreach

Кто-нибудь знает, почему это не сработает? foreach($html->find('tbody.result') as $article) { // get retail $item['Retail'] = trim($article->find('span.price', 0)->plaintext); // get soldby $item['SoldBy'] = trim($article->find('img', 0)->getAttribute('alt')); $articles[] = $item; } print_r($articles);

Как игнорировать ссылку http в строке и возвращать все остальное?

Я пытаюсь разобрать некоторый html-контент, вот HTML-контент: <font color="green"> *TITLE* </font> Some Event Name 1:15pm-5:00pm <font color="gold">Stream 5</font><p> <font color="green"> *TITLE* </font> Some: Event Name 1:30pm-5:00pm <font color="gold">Stream 4</font><p> <font color="green"> *TITLE* </font> Some, Event Name 1 with num 1:30pm-7:30pm <font color="gold">CHANNEL TWO 2 STREAM http://http://domain.com/path/to/page-2-online.html</font><p> <font color="green"> *TITLE* </font> Event two 2.45pm-4.45pm <font color="gold">Stream […]

Временное удаление HTML из строки для API Google Translate для снижения стоимости

Мне нужно перевести некоторые детали с помощью API Google, за который мы платим. Подробности содержат HTML, а Google взимает плату за каждого персонажа. Я не хочу отправлять полный контент, но вместо этого текст на английском языке удаляется. Я могу удалить теги HTML и сущности, используя PHP-функции, но я должен разместить английский контент в тегах HTML […]

Regex для HTML-тегов

Я делаю следующее: <? $text = preg_replace ("/<p>(.*?)<\/p>/", "$1<br>", "$text"); ?> Поэтому я могу избавиться от тегов <p> и поместить пробел в конец строки (это для стилизации страницы). Это отлично работает для "<p>Something</p>" . Однако с текстом вроде: <h3>Section 1.10.32 of "de Finibus Bonorum et Malorum", written by Cicero in 45 BC</h3> <p>"Sed ut perspiciatis […]

Intereting Posts
«Сериализация« SimpleXMLElement »не разрешена при сохранении в WordPress post_meta PHP удалить / исправить модуль не найден или уже загружен предупреждения? Подключение к базам данных Mulitple с DMZ DataMapper Не получать уведомления о выходе для производственного сертификата Передайте массив, где в Codeigniter Active Record Twitter OAuth – Недействительный токен доступа илистек Symfony: Можно ли установить TEMplate для компонентов? Связать функцию регулярного выражения PHP Daring Fireball Method laravel 5.2 – функция поиска .php с HTML по сравнению с .html с PHP Как отобразить ошибку, когда загруженные файлы превышают post_max_size php? Почта PHP (): Каковы потенциальные проблемы, на которые нужно обратить внимание? Получить IP-адрес пользователя в laravel с помощью аналогичного метода HTTP_X_FORWARDED_FOR Как выполнить модульное тестирование Исключения с помощью PHPUnit? При использовании Kohana DB, как избежать дублирования кода при необходимости подсчета для разбивки на страницы?