Я использую скручивание экрана с помощью Curl:
<?php $url = "http://www.bbc.com/news/"; $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $curl_scraped_page = curl_exec($ch); curl_close($ch); echo $curl_scraped_page; ?>
И затем я повторяю содержимое на странице HTML. Проблема в том, что когда я смотрю в свою консоль, я вижу 404 ошибки из-за относительных URL-адресов, назначенных файлам javascript. Например, если URL-адрес: somejavascriptfile.js
при загрузке страницы, мое доменное имя добавляется так: http://mydomain/somejavascriptfile.js
Эти пути, очевидно, неверны.
Итак, что я могу сделать, чтобы получить фактический URL-адрес js-файла? Если URL-адреса, где в теле я мог бы использовать jQuery (split / replace) для изменения, но в этом случае это не сработает.
Вы можете добавить base
тег к очищенному HTML.
Откройте его с помощью парсера HTML, такого как аккуратный , идите в начало раздела главы и добавьте <base>
. Базовый тег перенаправляет весь доступ к ресурсу в известное местоположение.