Мне нужен скрипт, который может размещать веб-сайт и возвращать список всех обходных страниц в текстовом или подобном формате; который я буду отправлять поисковым системам в качестве файла Sitemap. Могу ли я использовать WGET для создания сайта сайта? Или есть сценарий PHP, который может сделать то же самое?
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt
Это создает файл sedlog.txt
, содержащий все ссылки, найденные на указанном веб-сайте. Вы можете использовать PHP или скрипт для преобразования файла Sitemap в файл XML. Измените параметры команды wget (accept / reject / include / exclude), чтобы получить только нужные вам ссылки.
Вы можете использовать этот скрипт perl для выполнения трюка: http://code.google.com/p/perlsitemapgenerator/