Articles of web scraping

Какой самый быстрый способ очистить много страниц в php?

У меня есть агрегатор данных, который опирается на очистку нескольких сайтов и индексирование их информации таким образом, который доступен для поиска пользователю. Мне нужно ежедневно очищать огромное количество страниц, и я столкнулся с проблемами, используя простые запросы на завивки, которые довольно медленны, когда они выполняются в быстрой последовательности в течение длительного времени (скребок работает 24/7 […]

cURL Scrape then Parse / Find Specific Content

Я использую php и cURL для очистки веб-страницы, но эта веб-страница плохо спроектирована (как и в классах или идентификаторах на тегах), поэтому мне нужно найти конкретный текст, затем перейдите к тегу, удерживающему его (т.е. <p> ), затем перейдите к следующему дочернему элементу (или следующему <p> ) и получите текст. Есть разные вещи, которые мне нужно […]

Скремблирование данных со всех страниц asp.net с использованием разбивки на страницы AJAX

Я хочу отменить веб-страницу, содержащую список пользователей с адресами, электронной почтой и т. Д. На странице есть список пользователей с разбивкой по страницам, т. Е. Страница содержит 10 пользователей, когда я нажимаю на ссылку 2, она будет загружать список пользователей со 2-й страницы через AJAX и список обновлений для всех ссылок на страницы. Веб-сайт разработан […]

Получение цены от Amazon с помощью Xpath

на следующей странице: http://www.amazon.com/Jessica-Simpson-Womens-Double-Breasted/dp/B00K65ZMCA/ref=sr_1_4_mc/185-0705108-6790969?s=apparel&ie=UTF8&qid=1413083859&sr=1-4 Я пытаюсь получить цена с выражением '//span[@id="priceblock_ourprice"]' но результатом является пустая переменная. Интересная часть состоит в том, что на других страницах амазонки, таких как этот: http://www.amazon.com/SanDisk-Cruzer-Frustration-Free-Packaging–SDCZ36-032G-AFFP/dp/B007JR532M/ref=sr_1_1?s = рс & т = UTF8 & QID = 1413084653 & стер = 1-1 & ключевые слова = USB У меня есть выражение, которое работает […]

Извлечение строки в HTML-странице с помощью соскабливания в PHP-xpath

Мне нужно очистить эту страницу HTML … https://www.sanita.puglia.it/monitorpo/aslfg/monitorps-web/monitorps/monitorPSperASL.do?codNazionale=160115 …. используя PHP и XPath, чтобы получить значение 10 в зеленом поле под таблицей « PO G. TATARELLA-CERIGNOLA ». (ПРИМЕЧАНИЕ: вы можете увидеть другое значение на этой странице, если попытаетесь просмотреть его … это не имеет значения .., он меняет динамически ….) Я использую этот образец кода […]

Scrap Amazon все сделки php curl?

Я хочу отменить страницу всех амазонок http://www.amazon.com/gp/goldbox/all-deals/ref=sv_gb_1 Так что я использую curl php $request = 'http://www.amazon.com/gp/goldbox/all-deals/ref=sv_gb_1'; $ch = curl_init(); curl_setopt($ch,CURLOPT_URL,$request); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); curl_setopt($ch, CURLOPT_TIMEOUT, 80); $file_source = curl_exec($ch); print_r($file_source); exit; слом завершен, но содержимое страницы ответа div пусто. содержимое было получено из динамических запросов ajax […]

Может ли Goutte / Guzzle быть переведен в режим UTF-8?

Я соскабливаю с сайта UTF-8, используя Goutte , который внутренне использует Guzzle. Сайт объявляет метатег UTF-8, таким образом: <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> Однако заголовок типа контента: Content-Type: text/html и не: Content-Type: text/html; charset=utf-8 Таким образом, когда я царапаю, Goutte не видит, что это UTF-8, и неправильно считывает данные. Удаленный сайт не находится под моим контролем, […]

как анализировать содержимое из html-файла с помощью CURL?

Я хочу проанализировать содержимое XHTML с помощью CURL. Как отменить номер транзакции, вес, высоту, ширину между тегами <table> . Как отменить только содержимое из этого документа HTML и получить его как массив с помощью CURL? transactions.php <table border=0 cellspacing=0 width=100%> <tr> <td colspan="2">&nbsp;</td> </tr> <tr> <td width="30%" class="Mellemrubrikker">Transaction Number::</td> <td width="70%">24752734576547IN</td> </tr> <tr> <td width="30%" […]

php – Самый быстрый способ проверить наличие текста во многих доменах (более 1000)

У меня запущен скрипт php и с помощью cURL вы можете получить содержимое веб-страниц, на которых я хочу проверить наличие какого-либо текста. Сейчас это выглядит так: for( $i = 0; $i < $num_target; $i++ ) { $ch = curl_init(); $timeout = 10; curl_setopt ($ch, CURLOPT_URL,$target[$i]); curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt ($ch, CURLOPT_FORBID_REUSE, true); curl_setopt ($ch, […]

PHP: как очистить содержимое веб-сайта на основе Javascript

Я пытаюсь получить содержание этого сайта, используя PHP simplehtmldom library. http://www.immigration.govt.nz/migrant/stream/work/workingholiday/czechwhs.htm " Он не работает, поэтому я попытался использовать CURL: function curl_get_file_contents($URL) { $c = curl_init(); curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); curl_setopt($c, CURLOPT_URL, $URL); $contents = curl_exec($c); curl_close($c); if ($contents) return $contents; else return FALSE; } Но всегда приходите только с кодом JS и содержимым: <noscript>Please enable […]