Я разрабатываю веб-сайты, а иногда у клиентов уже есть веб-сайты, но они нуждаются в них полностью обновленной, но большая часть контента и изображений должна оставаться неизменной. Я ищу программное обеспечение, даже если оно стоит или представляет собой настольное приложение, которое легко позволит мне ввести URL-адрес и очистить весь контент до указанной папки на моем локальном компьютере. Любая помощь приветствуется.
htttrack будет отлично работать для вас. Это автономный браузер, который будет вытаскивать веб-сайты. Вы можете настроить его по своему усмотрению. Это не выведет PHP, очевидно, так как php – это код на стороне сервера. Единственное, что вы можете вытащить, это html и javascript, а также любые изображения, перемещенные в браузер.
file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));
Сохраните свои деньги на благотворительность.
По содержанию вы имеете в виду все содержимое страницы, потому что вы можете просто «сохранить как …» всю страницу с большинством включенных носителей.
Firefox, в Инструменте -> Информация о странице -> Медиа, включает в себя список всех частей носителя на странице, которую вы можете скачать.
Не беспокойтесь о PHP для чего-то подобного. Вы можете использовать wget
для захвата всего сайта тривиально. Однако имейте в виду, что он не будет анализировать такие вещи, как CSS для вас, поэтому он не будет захватывать файлы, на которые ссылается (скажем) background-image: URL('/images/pic.jpg')
, но будет хватать больше всего еще для вас.
Этот класс может помочь вам очистить содержимое: http://simplehtmldom.sourceforge.net/
Вы можете добиться этого, сохранив в качестве опции браузер перейти на файл-> сохранить страницу, как в firefox, и все изображения и js будут сохранены в одной папке
Я начал использовать HTTrack пару лет назад, и я доволен этим. Кажется, что он выходит из своего пути, чтобы получить страницы, которые я даже не увижу сам по себе.
Вы можете очистить веб-сайты с помощью http://scrapy.org и получить нужный контент.
Scrapy – это быстрый скрипинг экрана на высоком уровне и веб-обходной рамки, используемый для сканирования веб-сайтов и извлечения структурированных данных со своих страниц. Он может использоваться для самых разных целей: от интеллектуального анализа данных до мониторинга и автоматического тестирования.