Я хочу, чтобы мои закладки Chrome Chrome были занесены в базу данных, поэтому мой первый шаг – взять экспортированный .html-файл из chrome с PHP и получить данные в переменных, я надеюсь получить некоторый PHP-код, который сможет запускать ниже, и он будет извлекать URL-адрес, ADD_DATE, ICON и текст Link all в собственные переменные.
Я знаю, что мне нужно будет использовать некоторое регулярное выражение с этим, может ли кто-нибудь помочь? Спасибо, я добавлю щедрость к этому, когда позволит время.
<A HREF="http://snipt.net/public/tag/css" ADD_DATE="1271801059" ICON="" >Snipt - public - css | Share and store code or command snippets.</A>
Мне понравилась рекомендация пользователя yc использовать что-то вроде этого вместо regex
$s = '<A HREF="http://snipt.net/public/tag/css" ADD_DATE="1271801059" ICON="" >Snipt - public - css | Share and store code or command snippets.</A>'; $bookmarks = simplexml_load_string($s2); echo $bookmarks["HREF"]; //URL echo '<br>'; echo $bookmarks[0]; //Name echo '<br>'; echo $bookmarks['ICON']; //Icon echo '<br>'; echo $bookmarks['ADD_DATE']; //Add_Date
однако я не понял, как заставить его работать с несколькими ссылками на html-странице или строке.
Затем я нашел этот класс PHP DOMDocument, и мне кажется, что он работает так …
$html = '<DT><A HREF="http://stackapps.com/questions/518/stacktack-a-javascript-widget-you-can-stick-anywhere" ADD_DATE="1301274664" ICON="">app - StackTack, a JavaScript widget you can stick anywhere - Stack Apps</A> <DT><A HREF="https://chrome.google.com/extensions/detail/paoeolblihedcagbofkkkecjilmpehmo" ADD_DATE="1301275461" ICON="">StackStalker - Google Chrome extension gallery</A> <DT><A HREF="http://stackapps.com/questions/319/phpstack-a-php-wrapper-to-the-se-api" ADD_DATE="1301276371" ICON="">library - PHPstack - A PHP wrapper to the SE API - Stack Apps</A> '; $dom = new DOMDocument; $dom->loadHTML($html); foreach ($dom->getElementsByTagName('a') as $node) { echo 'Title = ' .$node->nodeValue. '</br>'; echo 'URL = ' .$node->getAttribute("href"). '</br>'; echo 'Icon = ' . $node->getAttribute("icon"). '</br>'; echo 'Date Added = ' . $node->getAttribute("add_date"). '</br>'; echo '<br>'; }
Не используйте регулярное выражение , поскольку HTML, даже если он предоставлен Chrome, не является обычным языком.
Используйте XML- SimpleXML
, например SimpleXML
.
Если строка выше была $s
,
$bookmarks = simplexml_load_string($s); echo $bookmarks["HREF"]; //URL echo $bookmarks[0]; //Name
объект (SimpleXMLElement) # 1 (2) {["@attributes"] => массив (3) {["HREF"] => строка (31) " http://snipt.net/public/tag/css " [ "ADD_DATE"] => строка (10) "1271801059" ["ICON"] => строка (1026) "data: image / png; base64, iVBh …. ="} [0] => строка (64) «Snipt – public – css | Поделиться и сохранить код или фрагменты команд». }
В общем, этот учебник по извлечению данных из html, основанный на php, вероятно, поможет вам:
xpath
определенно стоит того, чтобы быть опытным, если вам нужно много работать с html или xml вообще. W3schools имеет хороший справочный материал:
Другой вариант (forgoing PHP) – использовать селектора jQuery и CSS. Я предпочитаю CSS-селектора для xpath для большинства целей, и этот метод позволяет вам воспользоваться прекрасным инструментом SelectorGadget .
Вот недавний справочник: http://blog.dtrejo.com/scraping-made-easy-with-jquery-and-selectorga
Примечание. Они ссылаются на исходный jQuerify. Там активно поддерживается расширение jQuerify Chrome и более новое, лучше jQuerify .
SelectorGadget demo'ed начинается примерно в 5:35 в этом скринкасте .