Articles of web scraping

500 внутренних ошибок сервера file_get_contents

Если я попытаюсь прочитать источник сайтов, я иногда получаю следующее (пример URL показан): Warning: file_get_contents(http://www.iwantoneofthose.com/gift-novelty/golf-ball-finding-glasses/10602617.html) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.1 500 Internal Server Error in /home/public_html/pages/scrape.html on line 165 Однако сам URL-адрес в порядке … почему это произойдет? Я попробовал следующее обходное предложение, но тот же результат: $opts = array('http'=>array('header' => […]

как я могу заставить мой локоть ждать несколько секунд до соскабливания?

Поэтому я пытаюсь очистить некоторые данные с сайта. Есть список имен, которые нужно очистить. Случается, что если есть 15 имен, которые нужно очистить. Из этого только 5 имен соскабливаются. Когда я проверил исходный сайт, они тоже загружают данные аналогичным образом. При загрузке сайта в первый раз. Отображаются только пять имен. При перезагрузке отображаются 10 имен […]

завиток, не работающий для получения содержимого веб-страницы, почему?

Я использую curl-скрипт, чтобы перейти к ссылке и получить ее содержимое для дальнейших манипуляций. Ниже приведен скрипт ссылки и скручивания: <?php $url = 'http://criminaljustice.state.ny.us/cgi/internet/nsor/fortecgi?serviceName=WebNSOR&amp;templateName=detail.htm&amp;requestingHandler=WebNSORDetailHandler&amp;ID=368343543'; //curl script to get content of given url $ch = curl_init(); // set the target url curl_setopt($ch, CURLOPT_URL,$url); // request as if Firefox curl_setopt($ch, CURLOPT_HTTPHEADER, Array("User-Agent: Mozilla/5.0 (Windows; U; Windows NT […]

Как искать html-файл для простой строки?

Рассмотрим эту ссылку из Amazon. Если вы заметили, у каждого продавца есть этот блок (по крайней мере, похожий): <a href="http://www.amazon.com/shops/AN8LN2YPKS7DF/ref=olp_merch_name_2"> <img src="http://img.ruphp.com/php/41UQmT7-XyL.jpg" width="120" alt="DataVision Computer Video" height="30" border="0" /> </a> //and other junk Я хочу найти эту страницу для http://img.ruphp.com/php/41UQmT7-XyL.jpg , которая является изображением продавца (к которому у меня уже есть ссылка). Я просто хочу […]

Разбирайте таблицу внешнего веб-сайта

Существует календарь на: http://www.friendsbalt.org/upper/stulife/calendar.asp в форме статической таблицы, я хочу, чтобы сервер захватывал и разбирал таблицу подряд за строкой. Это возможно? Как бы вы сделали это наиболее эффективным способом? Примеры кода были бы потрясающими.

Простой HTML DOM Parser – пропустить определенный элемент

Я использую простой HTML DOM Parser, и я хочу полностью игнорировать содержимое «вложенного» элемента и получать содержимое существующего элемента «pre». <div id=parent> <div class="nested"> <pre>Text that I want ignored</pre> </div> <pre> This is the text I want to access </pre> </div> Я не контролирую источник HTML, а владелец недавно добавил «вложенный» элемент. Прежде чем я […]

Даже функция CURL не может очистить некоторые URL-адреса

Я использую CURL, чтобы очистить html от url's. Он отлично работает в 80% URL-адресов, которые я использую. Но некоторые URL не кажутся «царапаемыми». Например, когда я пытаюсь очистить http://www.thefancy.com , это не сработает. сайт продолжает загружаться, и в конце он не возвращает результат. проблема может быть проверена по адресу: http://www.itemmized.com/test/test/, это мой код: if($_POST['submit']) { […]

PHP file_get_contents не работает для некоторых URL-адресов

Почему файлы file_get_contents PHP не работают для некоторых URL-адресов? <?php $html = file_get_contents('http://modagram.com'); ?> Для выше я получаю это предупреждение: PHP Warning: file_get_contents(http://modagram.com): failed to open stream: HTTP request failed! in /var/www/html/scraping/test.php on line 2

Обратное очищение изображения с помощью PHP

Мне нужно получить некоторые изображения, используя Google Reverse поиск изображений, который не поддерживается API, но, к счастью, вы можете запросить google с прямой ссылкой на изображение, и он по-прежнему показывает результаты, поэтому: $googleURL = "https://www.google.com/searchbyimage?&image_url=".$imageURL; echo $googleURL; Вывод: https://www.google.com.au/search?tbs=sbi:AMhZZiu9rNRW4ETWGjN9XYQKsa21UHM7j_1TjMjXvYyNH1knVTyMGZGNmS2yme4CsQb0T7UViTyNrG4e8u_1xLY-dZCU16wkfdUakeY7idDwyMge78nT–Grpll4t9_1fp4YPTsJyKRUANzw1Iyctsko7OZbkYES3VUHtyNy9l9RJf12YOdEvVOxSZCO6-JPxO0PpZ5p79Rr-eDUrqENWYVbk4qojafKMTVfuXvoACQ9iykI-DMVbP9n_1o0YkdKTdUeK2r30wg4Oe2BqspoXlI_11rxySuK6TolPM6z58E6erTT0bnYfXTlyDMBfOwgSfhbn2ipLrNHgNdqyk-YhmMP0_1ZzqVyZrgMz-I5cfH9N65nX6bhZfos0lgr8_15V6ZHtX0_1p8s5r229JDrwzlwnjwOBLgP1inmEORCaKOlcfHbyPnU3n04pIfLGu5fWYpbmFJwtK_1vaJvS0uFb6Pkh_1uv0wvz_10yf4O6E1IvBSoMudcYy4cmJ1zegJJ9L50C0bzXFIRUb62lcPJWbkZNR44Tz378nOSXd-PND0JfKQ-TujT3KfC_1O241knvr9Eb3LbuvncGiCMoPgxlUY4r9B_1KWchNWhJVTJz9omeiygwz5K_13YkjuLg52UF6YWvLedCxgRoUpuj9kFdmYt-b9Tn2VEZG8yfiLm3OTkZnlVYtPF87LLQAHH24VpLMoV0oDllHDK3xOXhvusl_1K2Me9tTdK15PPG7oreeWfYRztQwTpG4iB5GAnaj687OQukvxX5hNFIqXx_1QSuNooDhIP1eJl-6QYfuI4MPasj6flSMom7HYTSjyjcsQKw0Prj1bBsJY6qH1qyLrF1f1_1Ql0COERnbOV7O5mTOuTkNWarmR5wzE06qbgsrtT95ENqafd81ppHbA0Jyg-xQ8TLV-dSp1QDAtiYAHI_11tCwsDtrak4jDS4qAfEJCw_1lb9urJqqajvp25jLH2_1mN3u0eeW7xNF-PljofyhI0iIWYSg6ghyOVRIaT_1c6klKUPvOrquZy8hMCZWHb3CYZNGJeKTnACCyYW1MNVUsYnoFWORN6hvkVlUk0beFXvA_1W2vaoedLjj-fN1y8_1dPOiBROLYtv85nq01csCKk7Eib6p2b_131wEeQBYocoYU0sGTv2_1dhOvSXRPGTnrbZlNDbJFUtH4pF9tMQj5-Fh_1lw9TTXGCjQ9UjOSLD5q7tNjCQU1As1uCQBvmZvxo7J3gZSAcj_19wXfHZCOsA8g-WA97V-2b62ia4RFOehQ38hoXoK7MCSDLnVtJTsKQz9HuEreXm8qGQlbDzfr7JFuHHe2MOyChwnL_1gzRnZd8uv2OIM0nzKh_1wg4T1KCXv3NSGNkSyNxpYXFJ161Sv3NpQQI3epBMiYA_1AcQDiCxOTQvWj00e5EXaXN22CDRWRq3uk4HWj2eXcR6-TGmsYEfSGX9nyQwK1DHp9yaNjk9Bal7rNHUAe_1eMDsCWW9htaLyiMTio0eXyTumVrlt7ShZVd8oSPOj8U0ilY9owH95jz7LsI8vUnzF-FC2m_1yNt3xe4ZAcsRTbYQXTN3Ga76vTQBPu8oz0gkYmDTA&gws_rd=cr&ei=wAHVVJOVLIeeugSZ64A4 .. Теперь на этой странице мне нужно перейти по ссылке на страницу фактических результатов, поэтому мое […]

Как архивировать динамический (PHP) сайт как статический HTML?

Мы находимся в процессе закрытия Сети Беседы (включая подкаст IT-беседы ). План состоит в предоставлении статической HTML-версии наших веб-сайтов для постоянного хостинга в Интернет-архиве . Каков самый простой способ генерации статического HTML из примерно 5000 динамических страниц, создаваемых в настоящее время динамически с PHP? Я знаю, что мы можем настроить код для кэширования вывода PHP, […]