Articles of web crawler

Как получить данные наведения (ajax) с помощью любого сканера php

Я просматриваю данные одного веб-сайта. Я могу весь контент на странице. Но некоторые данные на странице появляются после наведения на некоторые значки и показаны в виде подсказок. Поэтому я также требую данных. Возможно ли это с любым искателем. Я использую PHP и simplehtmldom для разбора / обхода страницы.

php crawl – включен javascript

Bonjour, знает ли кто-нибудь о способе создания паука, который действует так, как если бы он включал javascript? Код PHP: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") он будет извлекать выходные данные этой страницы. Если вы использовали PHP Code: file_get_contents("http://www.facebook.com/something/something.something.php") (im not sure i just know face book is a good example) он будет возвращать выходной сигнал, который будет включать в себя […]

Могу ли я использовать WGET для создания сайта сайта с учетом его URL-адреса?

Мне нужен скрипт, который может размещать веб-сайт и возвращать список всех обходных страниц в текстовом или подобном формате; который я буду отправлять поисковым системам в качестве файла Sitemap. Могу ли я использовать WGET для создания сайта сайта? Или есть сценарий PHP, который может сделать то же самое?

Сканирование Google Search с помощью PHP

Я пытаюсь понять, как получить результаты поиска Google с помощью PHP или JavaScript. Я знаю, что это было возможно раньше, но теперь я не могу найти способ. Я пытаюсь дублировать (несколько) функциональность http://www.getupdated.se/sokmotoroptimering/seo-verktyg/kolla-ranking/ Но на самом деле основная проблема, которую я хочу решить, – это просто получить результат поиска через PHP или JavaScript, остальное я […]

Crawler script php

Я беру кусок скрипта здесь, чтобы просканировать сайт, поставить его на свой сервер, и он работает. Единственная проблема заключается в том, что если я попытаюсь выполнить обход глубины, то что-то выше 4, это не сработает. Мне интересно, не связано ли это с серверами нехватки ресурсов или самого кода. <?php error_reporting(E_ALL); function crawl_page($url, $depth) { static […]

Мне нужно написать веб-искатель для конкретного пользовательского агента

Мне нужно написать веб-искатель и захотеть выполнить сканирование с помощью известного пользовательского агента. Например, я хочу, чтобы мой искатель работал как iphone, чтобы обходить мобильный сайт веб-сайта, а затем снова сканировать с помощью агента Mozilla PC и т. Д. Таким образом, Ill сможет сканировать каждый «тип» сайта (мобильный и ПК). Тем не менее, я также […]

Извлечение данных сайта через веб-искатель выводит ошибку из-за неправильного совпадения индекса массива

Я пытался извлечь текст таблицы сайта вместе со своей ссылкой из данной таблицы (которая находится в site1.com) на мою страницу php с помощью веб-искателя. Но, к сожалению, из-за неправильного ввода индекса массива в php-код в него выводилась ошибка. site1.com <table border="0" cellpadding="0" cellspacing="0" width="100%" class="Table2"> <tbody><tr> <td width="1%" valign="top" class="Title2">&nbsp;</td> <td width="65%" valign="top" class="Title2">Subject</td> <td […]

Ошибки в отношении веб-сканера в PHP

Я пытаюсь создать простой веб-искатель с использованием PHP, который способен обходить домены .edu, при условии семенных URL-адресов родителя. Я использовал простой html dom для реализации искателя, а часть основной логики реализована мной. Я отправляю код ниже и попытаюсь объяснить проблемы. private function initiateChildCrawler($parent_Url_Html) { global $CFG; static $foundLink; static $parentID; static $urlToCrawl_InstanceOfChildren; $forEachCount = 0; […]

Crawlable AJAX с _escaped_fragment_ в htaccess

Привет, коллеги-разработчики! Мы почти закончили разработку первой фазы нашего веб-приложения ajax. В нашем приложении мы используем хеш-фрагменты, такие как: http://ourdomain.com/#!list=last_ads&order=date Я понимаю, что Google получит этот URL-адрес и сделает запрос на сервер в этой форме: http://ourdomain.com/?_escaped_fragment_=list=last_ads?order=date&direction=desc все идеально, кроме … Я хотел бы перенаправить этот запрос на другой скрипт вот так: RewriteCond %{QUERY_STRING} ^_escaped_fragment_=(.*)$ RewriteRule […]

Найти текст внутри тега javascript с помощью PHP Simple HTML DOM Parser

Я пытаюсь регулярно находить изменение текста внутри тега javascript: <script type="text/javascript"> jwplayer("mediaplayer").setup({ flashplayer: "player.swf", file:"filename", provider: "rtmp", streamer:"rtmp://192.168.1.1/file?wmsAuthSign=RANDOM-114-Character==", height:500, width:500, }); </script> Как получить RANDOM-114-Character (или полное значение «флеш-карт Streamer») с помощью PHP Simple HTML DOM Parser, я просто не собираюсь это делать.