Как очистить весь контент с веб-сайта?

Я разрабатываю веб-сайты, а иногда у клиентов уже есть веб-сайты, но они нуждаются в них полностью обновленной, но большая часть контента и изображений должна оставаться неизменной. Я ищу программное обеспечение, даже если оно стоит или представляет собой настольное приложение, которое легко позволит мне ввести URL-адрес и очистить весь контент до указанной папки на моем локальном компьютере. Любая помощь приветствуется.

Related of "Как очистить весь контент с веб-сайта?"

htttrack будет отлично работать для вас. Это автономный браузер, который будет вытаскивать веб-сайты. Вы можете настроить его по своему усмотрению. Это не выведет PHP, очевидно, так как php – это код на стороне сервера. Единственное, что вы можете вытащить, это html и javascript, а также любые изображения, перемещенные в браузер.

file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));

Сохраните свои деньги на благотворительность.

По содержанию вы имеете в виду все содержимое страницы, потому что вы можете просто «сохранить как …» всю страницу с большинством включенных носителей.

Firefox, в Инструменте -> Информация о странице -> Медиа, включает в себя список всех частей носителя на странице, которую вы можете скачать.

Не беспокойтесь о PHP для чего-то подобного. Вы можете использовать wget для захвата всего сайта тривиально. Однако имейте в виду, что он не будет анализировать такие вещи, как CSS для вас, поэтому он не будет захватывать файлы, на которые ссылается (скажем) background-image: URL('/images/pic.jpg') , но будет хватать больше всего еще для вас.

Этот класс может помочь вам очистить содержимое: http://simplehtmldom.sourceforge.net/

Вы можете добиться этого, сохранив в качестве опции браузер перейти на файл-> сохранить страницу, как в firefox, и все изображения и js будут сохранены в одной папке

Я начал использовать HTTrack пару лет назад, и я доволен этим. Кажется, что он выходит из своего пути, чтобы получить страницы, которые я даже не увижу сам по себе.

Вы можете очистить веб-сайты с помощью http://scrapy.org и получить нужный контент.

Scrapy – это быстрый скрипинг экрана на высоком уровне и веб-обходной рамки, используемый для сканирования веб-сайтов и извлечения структурированных данных со своих страниц. Он может использоваться для самых разных целей: от интеллектуального анализа данных до мониторинга и автоматического тестирования.