Articles of web crawler

php для веб-сайта с содержимым ajax и https

Я пытаюсь захватить содержимое веб-сайта на основе ajax и https, но не повезло. Это возможно. Веб-сайт, который я пытаюсь выполнить, заключается в следующем: https://www.bet3000.com/en/html/home.html#!https://www.bet3000.com/html/en/eventssportsbook.html?category_id=2117 благодаря

Войти и отправить форму с веб-гусеничным

Таким образом, в веб-гусеничном ходу я передаю и передаю данные, подобные этому $client = new Client(); $crawler = $client->request('GET', 'link'); $form = $crawler->filter('.default')->form(); $crawler = $client->submit($form, array( 'login'=>'ud', 'password'=>'pw' )); Но если я использую var_dump($crawler); Я понимаю, что я никогда не получаю данные с веб-сайта после входа в систему, потому что он перенаправляет меня, а […]

file_get_content получить неправильную сеть

Я учусь размещать содержимое веб-сайта с помощью PHP- file_get_contents , но что-то не так. Веб-сайт, который я хочу, это « http://www.jandan.net ». Но используйте file_get_content() , я получаю содержимое с « http://i.jandan.net » (это страница телефона, это разные страницы). user_agent также неприменим. <?php ini_set("user_agent","Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2) Gecko/20100301 Ubuntu/9.10 (karmic) Firefox/3.6"); $url […]

найти ссылку в pdf-расширении

Мне нужно получить ссылки с расширением pdf. мой код: <?php set_time_limit (0); curl_setopt($ch, CURLOPT_URL,"http://example.com"); curl_setopt($ch, CURLOPT_TIMEOUT, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); $result=curl_exec ($ch); curl_close ($ch); preg_match_all( '/<a href="(http:\/\/www.[^0-9].+?)"/', $result, $output, PREG_SET_ORDER); // read all links foreach($output as $item ){ $n=strlen($item); $m=$n-3; $buffer_n=$item; $buffer_m=""; $buffer_m=$buffer_n[$m].$buffer_n[$m+1].$buffer_n[$m+2]; $ekstension = 'pdf'; if ($buffer_m == $ekstension) { print_r($item); echo '<br>'; } } […]

Как получить контент метаописания с помощью Goutte

Не могли бы вы помочь мне найти способ получить контент из мета-описания, мета-ключевых слов и содержимого роботов с помощью Goutte. Кроме того, как я могу настроить таргетинг на <link rel="stylesheet" href=""> и <script> ? Ниже приведен PHP, который я использовал для получения <title> контента: require_once 'goutte.phar'; use Goutte\Client; $client = new Client(); $crawler = $client->request('GET', […]

php конвертировать все ссылки на абсолютные URL-адреса

Я пишу веб-сайт искателя в php, и у меня уже есть код, который может извлекать все ссылки с сайта. Проблема: сайты используют комбинацию абсолютных и относительных URL-адресов. Примеры (http заменен на hxxp, поскольку я не могу отправлять гиперссылки): hxxp: //site.com/ site.com site.com/index.php hxxp: //site.com/hello/index.php /hello/index.php hxxp: //site2.com/index.php site2.com/index.php Я не контролирую ссылки (если они абсолютные […]

Идеи BOT / Spider Trap

У меня есть клиент, чей домен, похоже, сильно ударит по тому, что кажется DDoS. В журналах это обычные пользовательские агенты со случайными IP-адресами, но они слишком быстро перелистывают страницы, чтобы быть людьми. Они также, похоже, не запрашивают никаких изображений. Кажется, я не вижу никакой картины, и мое подозрение – это парк Windows Zombies. У клиентов […]

Извлечь текст из DIV, который встречается на нескольких страницах на веб-сайте, а затем выводить на .txt?

Просто для того, чтобы отметить с самого начала, контент не защищен авторскими правами, и я хотел бы автоматизировать процесс получения текста для цели проекта. Я хотел бы извлечь текст из конкретного и повторяющегося DIV ( который приписывается его собственному «классу», в случае, если это упростится ), сидя на каждой странице на просто разработанном веб-сайте. На […]

Использование PHP и RegEx для извлечения всех значений параметров из исходного кода сайта

Я изучаю RegEx и сканирование сайта, и у меня возникает следующий вопрос, который, если он отвечает, должен значительно ускорить процесс обучения. Я получил элемент формы с веб-сайта в формате htmlencoded. То есть, у меня есть строка $ content со всеми тэгами без изменений: $content = "<form name="sth" action=""> <select name="city"> <option value="one">One town</option> <option value="two">Another […]

Обнаружение искателя php

Я пытаюсь написать sitemap.php, который действует по-разному в зависимости от того, кто смотрит. Я хочу перенаправить искателей на мой sitemap.xml, так как это будет самая обновленная страница и будет содержать всю необходимую им информацию, но я хочу, чтобы мои обычные читатели отображали html-карту сайта на php-странице. Все это будет контролироваться изнутри php-заголовка, и я нашел […]

Intereting Posts