Articles of web scraping

Выполнение JS-сервера для генерации хэша для xhr

Существует защищенная от царапин форма . Входы входа и пароля имеют обфускационный атрибут имени : <input id="login-username" name="r0pUsRqARu" value="" type="text" class="form-control" placeholder="Login"> На основе этих входных данных (включая значения входа и пароля) и поля ввода скрытого символа значение хэша создается клиентской стороной по функции js ( md5.js ). $("#btn-login").click(function(){ var ser = $( "#loginform" ).serialize(); […]

Очистить сайт с помощью javascript, используя cURL

Я пытаюсь очистить данные этого веб-сайта: http://ntthnue.edu.vn/tracuudiem Во-первых, когда я вставляю поле SBD с данными «TS4740», я могу успешно получить результат. Однако, когда я пытаюсь запустить этот код: Вот мой код PHP cURL: <?php function getData($id) { $url = 'http://ntthnue.edu.vn/tracuudiem'; $ch = curl_init($url); curl_setopt($ch, CURLOPT_POST, true); curl_setopt($ch, CURLOPT_POSTFIELDS, ['sbd' => $id]); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $result […]

Разбор HTML-страницы с использованием curl и xpath в PHP

Мне нужно разобрать эту веб-страницу https://www.galliera.it/118, получая цифры под цветными полосками. Это мой код (это не работает !!) … <?php ini_set('display_errors', 1); $url = 'https://www.galliera.it/118'; print "The url … ".$url; echo '<br>'; echo '<br>'; //#Set CURL parameters … $ch = curl_init(); curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, […]

Извлечение HTML скрепощенной страницы с использованием PHP DOM

Возможно ли создать HTML-вывод из содержимого фрагмента HTML, который был извлечен с помощью инструментов DOM PHP (например, $ div = $ dom-> getElementsByTagName ('table') -> item (0);), так что созданный HTML содержит только элементы с указанным именем тега и их потомками? В противном случае существуют ли какие-либо другие способы легко извлечь фрагмент HTML из полного […]

php include – как сделать доступными переменные, если они включены?

Я пытаюсь включить файл, который очищает все мои данные с нескольких веб-сайтов, но не работает. Вот мой код. во-первых, очищающий файл php. имя scrapedata.php <?php //Include the Simple HTML DOM to use its functions, used by other following scripts. //navigate to the content of variable html and save it in price data variable //get the […]

Как очистить содержимое веб-сайта (* COMPLEX * iframe, javascript-представление)

Я делал веб-соскабливание раньше, но это никогда не было таким сложным. Я хочу получить информацию о курсах со школьного сайта. Однако вся информация о курсе отображается в кошмаре веб-скребка. Во-первых, когда вы нажимаете URL-адрес «Расписание занятий», он сначала направляет вас по нескольким другим страницам (я считаю, что нужно установить файлы cookie и проверить другое дерьмо). […]

Как получить в php весь html страницы, загруженной частично из jquery

У меня эта проблема в течение нескольких дней … Мне нужно загрузить с php весь html страницы. На этой странице есть функция jquery, которая вызывается, когда загружается вся страница. Эта функция загружает другой html в страницу, поэтому мне нужно загрузить весь загруженный html (часть, загруженная jquery). Я могу знать, что я получаю всю страницу, пытающуюся […]

Цитирование через таблицу с помощью Simple HTML DOM

Я использую Simple HTML DOM для извлечения данных из HTML-документа, и у меня есть несколько проблем, с которыми мне нужна помощь. В строке, начинающейся с if ($td->find('a')) я хочу разделить href и содержимое узла привязки отдельно и поместить их в отдельные переменные. Код, однако, не работает (см. Вывод эха в коде ниже). Каков наилучший способ […]

PHP: простой HTML DOM Parser – несколько атрибутов в find ()?

Я использую простой HTML DOM Parser, но не могу понять, как получить элементы с двумя или более подходящими атрибутами. К сожалению, чтобы получить первые 2 div, это не сработает: $html = "<div title='test a' class='a' >test a</div> <div title='test b' class='b' >test b</div> <div title='test c' class='c' >test c</div>"; $htmldom = str_get_html($html); $ab = $htmldom->find("div[class=a][class=b]"); […]

Простой DOM file_get_html ничего не возвращает

Я пытаюсь очистить данные с некоторых веб-сайтов. Для нескольких сайтов все кажется прекрасным, но для одного веб-сайта он, похоже, не может получить какой-либо HTML-код. Это мой код: <?php include_once('simple_html_dom.php'); $html = file_get_html('https://www.magiccardmarket.eu/?mainPage=showSearchResult&searchFor=' . $_POST['data']); echo $html; ?> Я использую ajax для извлечения данных. Когда я регистрирую возвращаемое значение в моем js, он полностью пуст. Может […]