Articles of screen scraping

Как экранировать веб-сайт и получать данные в div?

Как я могу экранировать веб-сайт с помощью cURL и показывать данные в определенном div?

Вставка скребковых данных с использованием php curl в MySQL

Я работаю над этим скриптом последние пару дней и не могу найти способ вставить данные в MySQL. Я начинаю, когда речь заходит о PHP / MYSQL, и раньше пишут несколько простых скриптов. Я могу отбросить скребковые данные и не получать сообщений об ошибках, но когда я проверяю phpmyadmin, запрос не работает (результаты не вводятся в […]

PHP-парсер PHP, который позволяет мне делать выбор класса и получать родительские узлы

Таким образом, я в ситуации, когда я очищаю веб-сайт с PHP, и мне нужно иметь возможность получить узел на основе его класса css. Мне нужно получить тег ul, который не имеет атрибута id, но имеет класс css. Затем мне нужно получить только теги li, которые содержат определенные теги привязки, а не все теги li. Я […]

очистка экрана в php-проблеме

я сделал модуль очистки экрана, который работает очень хорошо, но с определенными ограничениями. Теперь я хочу удалить эти ограничения, но я получил такую ​​непредсказуемую и другую ошибку. Прежде, чем что-нибудь пойдет в уму, позвольте мне, что ват, на самом деле происходит. Первоначально я использовал скрипинг экрана для получения результата для набора ключевых слов (поисковый контент) […]

используя завиток, чтобы перейти с одной веб-страницы на другую, используя javascript

У меня есть webpage1.html, у которого есть гиперссылка, href = "some / javascript / function / outputLink ()" Теперь, используя curl (или любой другой метод в php), как я могу вывести гиперссылку (формата http: //) из функции javascript (), чтобы перейти на следующую страницу. благодаря

DOM Parser Foreach

Кто-нибудь знает, почему это не сработает? foreach($html->find('tbody.result') as $article) { // get retail $item['Retail'] = trim($article->find('span.price', 0)->plaintext); // get soldby $item['SoldBy'] = trim($article->find('img', 0)->getAttribute('alt')); $articles[] = $item; } print_r($articles);

Получить данные из первого td в каждом tr

Я очищаю страницу, содержащую таблицу с несколькими tr. Внутри каждого tr есть четыре td, и я хочу получить данные из первого из этих td. Ниже приведен код, который я пробовал до сих пор, но он захватывает все td's. Как я могу выполнить то, что хочу? … $html = new simple_html_dom(); $html = file_get_html($url); foreach($html->find('table tr') […]

Скребок текстового файла без HTML?

У меня есть следующие данные в текстовом файле: 1. Value Location : Value Owner: Value Architect: Value 2. Value Location : Value Owner: Value Architect: Value … upto 200+ … Нумерация и слово Value изменяются для каждого сегмента. Теперь мне нужно вставить эти данные в базу данных MySQL. Есть ли у вас предложение о том, […]

PHP Простой HTML DOM Parser Dies

Я экранирую страницу с кучей подстраниц, используя Simple HTML DOM Parser. По какой-то причине он анализирует первые 40 подстраниц только отлично, но когда дело доходит до номера 41, он умирает без ошибок. Я сделал эту тестовую страницу и попытался зарегистрировать все, что я делаю в своем скрипте, а также некоторые из вложений в Simple DOM […]

завиток, не работающий для получения содержимого веб-страницы, почему?

Я использую curl-скрипт, чтобы перейти к ссылке и получить ее содержимое для дальнейших манипуляций. Ниже приведен скрипт ссылки и скручивания: <?php $url = 'http://criminaljustice.state.ny.us/cgi/internet/nsor/fortecgi?serviceName=WebNSOR&amp;templateName=detail.htm&amp;requestingHandler=WebNSORDetailHandler&amp;ID=368343543'; //curl script to get content of given url $ch = curl_init(); // set the target url curl_setopt($ch, CURLOPT_URL,$url); // request as if Firefox curl_setopt($ch, CURLOPT_HTTPHEADER, Array("User-Agent: Mozilla/5.0 (Windows; U; Windows NT […]