Articles of scraping

Таблица Xpath в таблице

У меня возникла проблема соскабливания страницы с тяжелой таблицей с DOMXpath. Макет действительно уродливый, то есть я пытаюсь получить содержимое из таблицы внутри таблицы в таблице. Используя Firebug FirePath, я получаю для элемента таблицы следующий путь: html/body/table/tbody/tr[3]/td/table[1]/tbody/tr[2]/td[1]/table[1]/tbody/tr[3]/td[4] Теперь, после бесконечных экспериментов, я узнал, что с отдельной таблицей мне нужно удалить тег «tbody», чтобы он работал. […]

Использование PHP exec () дает ошибку: Fatal: Нет такого файла или каталога; вы установили

Я пытаюсь использовать PHP для exec() двоичного casperjs , exec('casperjs /var/www/mysite/application/phantomjs/test.js'); но я получаю ошибку Fatal: [Errno 2] No such file or directory; did you install phantomjs? CasperJS работает поверх PhantomJS, которые я вручную установил, и создал ссылку в /usr/local/bin/phantomjs и /usr/local/bin/casperjs . Так что я предполагаю, что casperjs вызывает phantomjs, когда он работает. Однако […]

Как очистить данные JSON, передаваемые через веб-сайты на целевом сайте

Меня попросили очистить сайт, который получает данные через websockets, а затем отображает это на странице через javascript / jquery. Возможно ли обходить посредника (DOM) и потреблять / очищать данные, поступающие через сокет? Возможно ли это с помощью безгласного webkit, такого как phantomJS? Целевой сайт использует socket.io . Мне нужно потреблять данные и запускать предупреждения на […]

DOMCrawler не демпирует данные для разбора

Я использую Symfony, Goutte и DOMCrawler для очистки страницы. К сожалению, на этой странице много старомодных таблиц данных, а также нет идентификаторов или классов или идентифицирующих факторов. Поэтому я пытаюсь найти таблицу, анализируя исходный код, который я возвращаю из запроса, но я не могу получить доступ к какой-либо информации Я думаю, что когда я пытаюсь […]

CasperJS передает данные обратно на PHP

CasperJS вызывается PHP с помощью команды exec() . После того, как CasperJS выполняет свою работу, например, извлечение частей веб-страницы, как вернуть полученные данные обратно на PHP?

не удалось очистить содержимое с веб-сайта

Я пытаюсь отказаться от некоторого контента с веб-сайта, но приведенный ниже код не работает (не показывая никакого вывода). вот код $url="some url"; $otherHeaders=""; //here i am using some other headers like content-type,userAgent,etc some curl to get the webpage … .. curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); $content=curl_exec($ch);curl_close($ch); $page=new DOMDocument(); $xpath=new DOMXPath($page); $content=getXHTML($content); //this is a tidy function to convert bad […]