Articles of web scraping

Как очистить URL-адрес SSL или HTTPS

Я написал функцию, чтобы очистить сайт, используя CURL, но он ничего не возвращает при вызове и не может понять, почему. Выход пуст <?php function scrape($url) { $headers = Array( "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5", "Cache-Control: max-age=0", "Connection: keep-alive", "Keep-Alive: 300", "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7", "Accept-Language: en-us,en;q=0.5", "Pragma: " ); $config = Array( CURLOPT_RETURNTRANSFER => TRUE , CURLOPT_FOLLOWLOCATION => TRUE , […]

Очистить содержимое сайта С помощью безопасного входа в систему

Я пытаюсь очистить содержимое сайта с помощью входа в систему, но не могу сделать это. У входа в систему есть три параметра: имя пользователя, пароль, пароль, код, который я использую <?php // HTTP authentication $url = "http://aftabcurrency.com/login_script.php"; $ch = curl_init(); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_URL, $url); $cookie = 'cookies.txt'; $timeout = 30; curl_setopt($curl, CURLOPT_TIMEOUT, 10); […]

Веб-скребок в PHP

Я ищу способ сделать небольшой предварительный просмотр другой страницы с URL-адреса, заданного пользователем на PHP . Я бы хотел получить только название страницы, изображение (например, логотип сайта) и немного текста или описания, если оно доступно. Есть ли простой способ сделать это без каких-либо внешних библиотек / классов? благодаря До сих пор я пытался использовать класс […]

Может ли Goutte / Guzzle быть переведен в режим UTF-8?

Я соскабливаю с сайта UTF-8, используя Goutte , который внутренне использует Guzzle. Сайт объявляет метатег UTF-8, таким образом: <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> Однако заголовок типа контента: Content-Type: text/html и не: Content-Type: text/html; charset=utf-8 Таким образом, когда я царапаю, Goutte не видит, что это UTF-8, и неправильно считывает данные. Удаленный сайт не находится под моим контролем, […]

как анализировать содержимое из html-файла с помощью CURL?

Я хочу проанализировать содержимое XHTML с помощью CURL. Как отменить номер транзакции, вес, высоту, ширину между тегами <table> . Как отменить только содержимое из этого документа HTML и получить его как массив с помощью CURL? transactions.php <table border=0 cellspacing=0 width=100%> <tr> <td colspan="2">&nbsp;</td> </tr> <tr> <td width="30%" class="Mellemrubrikker">Transaction Number::</td> <td width="70%">24752734576547IN</td> </tr> <tr> <td width="30%" […]

php – Самый быстрый способ проверить наличие текста во многих доменах (более 1000)

У меня запущен скрипт php и с помощью cURL вы можете получить содержимое веб-страниц, на которых я хочу проверить наличие какого-либо текста. Сейчас это выглядит так: for( $i = 0; $i < $num_target; $i++ ) { $ch = curl_init(); $timeout = 10; curl_setopt ($ch, CURLOPT_URL,$target[$i]); curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt ($ch, CURLOPT_FORBID_REUSE, true); curl_setopt ($ch, […]

PHP: как очистить содержимое веб-сайта на основе Javascript

Я пытаюсь получить содержание этого сайта, используя PHP simplehtmldom library. http://www.immigration.govt.nz/migrant/stream/work/workingholiday/czechwhs.htm " Он не работает, поэтому я попытался использовать CURL: function curl_get_file_contents($URL) { $c = curl_init(); curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); curl_setopt($c, CURLOPT_URL, $URL); $contents = curl_exec($c); curl_close($c); if ($contents) return $contents; else return FALSE; } Но всегда приходите только с кодом JS и содержимым: <noscript>Please enable […]

Как добавить очищенные данные веб-сайта в базу данных?

Я хочу хранить: наименование товара Categoty Подкатегория Цена Компания продукта. В моей таблице названы products_data с именем filds как PID, product_name, категория, подкатегория, product_price и product_company. Я использую curl_init() в php для первого URL-адреса веб-сайта, затем я хочу хранить данные о продуктах в моей таблице базы данных. Вот что я сделал до сих пор для […]