Articles of html parsing

Фильтровать XML по элементам

<?php $files = glob( 'docs/*.xml' ); if ( isset( $_GET['doctype'] ) == "all" ) { foreach ( $files as $file ) { $xml = new SimpleXMLElement( $file, 0, true ); echo' <tr> <td id="'. $xml->doctype .'" name="'. $xml->doctype .'" class="mainTable">' . $xml->doctype . '</td> <td><a href="viewdoc.php?docname=' . basename( $file, '.xml' ) . '&username='. $xml->startedby .'&myname='. […]

Regex игнорирует совпадения между тегами <script>

Я прошу прощения, поскольку у меня очень мало знаний о Regex, и я даже не понимаю, что делает это регулярное выражение (я не писал его – источник ), кроме того, что он ищет определенный термин, чтобы его можно было выделить. Вот регулярное выражение: /(\b$term|$term\b)(?!([^<]+)?>)/iu Проблема в том, что мне нужно убедиться, что она не соответствует […]

php, simple_html_dom.php, выберите выбранный вариант

У меня есть html-блок: $ localurl = ' <select name="cCountry" id="cCountry" style="width:200" tabindex="5"> <option value="251">Ascension Island</option> <option selected="selected" value="14">Australia</option> <option value="13">Austria</option> «; Я пытаюсь извлечь выбранное значение в этом случае «Австралия», используя simple_html_dom ( http://simplehtmldom.sourceforge.net/ ). Пока у меня есть функция, но она не работает: // извлечение выбранного значения функция getValue_selected ($ value, $ localurl) […]

Разбор HTML-таблиц через DOM

Я считаю, что разметка страницы является частью проблемы, которую я испытываю, поэтому я думаю, что мне нужно опубликовать источник и JSFiddle JSFiddle и оригинальную страницу GIS Я пытаюсь получить информацию, такую ​​как Name: and Address: из таблицы внизу. попытка решения: Я написал следующий код, надеясь увидеть все данные таблицы, но таблица, в которой я хочу […]

Извлечение значений узла с помощью XPath

Существует раздел amazon.com, из которого я хочу извлечь данные (только значение узла, а не ссылка) для каждого элемента. Значение, которое я ищу, находится внутри и <span class="narrowValue"> <ul data-typeid="n" id="ref_1000"> <li style="margin-left: -18px"> <a href="/s/ref=sr_ex_n_0?rh=i%3Aaps%2Ck%3Ahow+to+grow+tomatoes&amp;sort=salesrank&amp;keywords=how+to+grow+tomatoes&amp;ie=UTF8&amp;qid=1327603358"> <span class="expand">Any Department</span> </a> </li> <li style="margin-left: 8px"> <strong>Books</strong> </li> <li style="margin-left: 6px"> <a href="/s/ref=sr_nr_n_0?rh=k%3Ahow+to+grow+tomatoes%2Cn%3A283155%2Cp_n_feature_browse-bin%3A618073011%2Cn%3A%211000%2Cn%3A48&amp;bbn=1000&amp;sort=salesrank&amp;keywords=how+to+grow+tomatoes&amp;ie=UTF8&amp;qid=1327603358&amp;rnid=1000"> <span class="refinementLink">Crafts, Hobbies & Home</span><span […]

Парсер DOM: удалять только определенные атрибуты

Как я могу использовать парсер DOM для удаления всех атрибутов в тегах span, но кроме этих двух атрибутов, <span style="text-decoration: underline;">cultura</span> принять <span style="text-decoration: line-through;">heart</span> принять отвергайте это, <span style="font-family: " lang="EN-US">May</span> принять Является ли это возможным? Мой рабочий код с другого поста, который я сделал, $content = ' <span style="text-decoration: underline;">cultura</span>l <span style="text-decoration: line-through;">heart</span> […]

Как стирать метки безопаснее, чем использовать функцию strip_tags?

У меня возникли проблемы с использованием функции strip_tags PHP, когда строка содержит знаки «меньше» и «больше». Например: Если я сделаю: strip_tags("<span>some text <5ml and then >10ml some text </span>"); Я получу: some text 10ml some text Но, очевидно, я хочу получить: some text <5ml and then >10ml some text Да, я знаю, что я мог […]

Как извлечь структурированный текст из HTML-списка в PHP?

У меня есть эта строка: <ul> <li id="1">Page 1</li> <li id="2">Page 2 <ul> <li id="3">Sub Page A</li> <li id="4">Sub Page B</li> <li id="5">Sub Page C <ul> <li id="6">Sub Sub Page I</li> </ul> </li> </ul> </li> <li id="7">Page 3 <ul> <li id="8">Sub Page D</li> </ul> </li> <li id="9">Page 4</li> </ul> и я хочу взорвать каждую информацию […]

PHP Получить содержимое веб-страницы

Поэтому я использую PHP Simple HTML DOM Parser для получения содержимого веб-страницы. После того, как я понял, что я делаю, я прав, у меня все еще есть ошибка, что ничего не найти. Итак, вот что я использую, чтобы увидеть, есть ли что-то, что действительно поймано: <?php include_once('simple_html_dom.php'); error_reporting(E_ALL); ini_set('display_errors', '1'); $first_url = "http://www.transfermarkt.co.uk/en/chinese-super-league/startseite/wettbewerb_CSL.html"; // works […]

Преобразование пробелов между тегами PRE через DOM-парсер

Regex была моей оригинальной идеей в качестве решения, хотя вскоре стало очевидно, что парсер DOM будет более уместным … Я хотел бы преобразовать пробелы в &nbsp; между тегами PRE внутри строки текста HTML. Например: <table atrr="zxzx"><tr> <td>adfa a adfadfaf></td><td><br /> dfa dfa</td> </tr></table> <pre class="abc" id="abc"> abc 123 <span class="abc">abc 123</span> </pre> <pre>123 123</pre> в […]