Таким образом, в веб-гусеничном ходу я передаю и передаю данные, подобные этому $client = new Client(); $crawler = $client->request('GET', 'link'); $form = $crawler->filter('.default')->form(); $crawler = $client->submit($form, array( 'login'=>'ud', 'password'=>'pw' )); Но если я использую var_dump($crawler); Я понимаю, что я никогда не получаю данные с веб-сайта после входа в систему, потому что он перенаправляет меня, а […]
Не могли бы вы помочь мне найти способ получить контент из мета-описания, мета-ключевых слов и содержимого роботов с помощью Goutte. Кроме того, как я могу настроить таргетинг на <link rel="stylesheet" href=""> и <script> ? Ниже приведен PHP, который я использовал для получения <title> контента: require_once 'goutte.phar'; use Goutte\Client; $client = new Client(); $crawler = $client->request('GET', […]
Я создаю собственное тестовое приложение с использованием PHPUnit и Goutte. Я хотел бы загрузить библиотеку Goutte (плюс любые файлы, необходимые для тестов) в моем собственном файле начальной загрузки, а затем запустить тестовый бегун PHPUnit, как только он будет загружен. Я не уверен, как это сделать, не вызывая скрипт phpunit извне (что будет отдельным процессом и […]
Я пытаюсь Goutte , веб-искатель PHP, основанный на компонентах Symfony2. Я успешно получил Google в форматах открытого текста и SSL. Однако я столкнулся с страницей ASP / SSL, которая не будет загружаться. Вот мой код: // Load a crawler/browser system require_once 'vendor/goutte/goutte.phar'; // Here's a demo of a page we want to parse $uri = […]
Это код, который я использую require_once 'goutte.phar'; use Goutte\Client; $client = new Client(); for($i=0;$i<10;$i++){ $crawler = $client->request('GET', 'http://website.com'); echo '<p>'.$crawler->filterXpath('//meta[@property="og:description"]')->attr('content').'</p>'; echo '<p>'.$crawler->filter('title')->text().'</p>'; } Это работает, но требуется много времени для обработки? Есть ли способ сделать это быстрее.
Я работаю над веб-сервером, использующим goutte (fabpot / goutte). Когда я пытаюсь подключиться к сайту https, он выдает ошибку, потому что сайт использует самоподписанный сертификат. Я пытаюсь найти способ установить параметры завитка, чтобы игнорировать тот факт, что сертификат ssl сам подписан. Следуя инструкциям в https://github.com/FriendsOfPHP/Goutte, я попробовал следующий код: $this->client = new Client(); $this->client->getClient()->setDefaultOption('config/curl/'.CURLOPT_SSL_VERIFYPEER, false); […]
Я использую Symfony, Goutte и DOMCrawler для очистки страницы. К сожалению, на этой странице много старомодных таблиц данных, а также нет идентификаторов или классов или идентифицирующих факторов. Поэтому я пытаюсь найти таблицу, анализируя исходный код, который я возвращаю из запроса, но я не могу получить доступ к какой-либо информации Я думаю, что когда я пытаюсь […]
Я пытаюсь очистить сайт, который фактически блокирует Bots. У меня есть этот код в PHP cURL, чтобы уйти с блокировкой. $headers = array( 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding: zip, deflate, sdch' , 'Accept-Language:en-US,en;q=0.8' , 'Cache-Control:max-age=0', 'User-Agent:' . $user_agents[array_rand($user_agents)] ); curl_setopt($curl_init, CURLOPT_URL, $url); curl_setopt($curl_init, CURLOPT_HTTPHEADER, $headers); $output = curl_exec($curl_init); Это работает хорошо. Но я использую PHP Goutte , […]
Моя проблема заключается в том, что он требует не просто базового файла cookie, а скорее просит cookie сеанса и для произвольно сгенерированных идентификаторов. Я думаю, это означает, что мне нужно использовать эмулятор веб-браузера с банкой cookie? Я попытался использовать Snoopy, Goutte и пару других эмуляторов веб-браузера, но пока еще не смог найти учебники о том, […]
Я соскабливаю с сайта UTF-8, используя Goutte , который внутренне использует Guzzle. Сайт объявляет метатег UTF-8, таким образом: <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> Однако заголовок типа контента: Content-Type: text/html и не: Content-Type: text/html; charset=utf-8 Таким образом, когда я царапаю, Goutte не видит, что это UTF-8, и неправильно считывает данные. Удаленный сайт не находится под моим контролем, […]