Могу ли я использовать WGET для создания sitemap веб-сайта с учетом его URL-адреса?

Мне нужен скрипт, который может Спайдер веб-сайта и вернуть список всех обысканных страниц в текстовом или аналогичном формате; который я отправлю в поисковые системы в качестве sitemap. Могу ли я использовать WGET для создания sitemap веб-сайта? Или есть php-скрипт, который может сделать то же самое?

2 ответов


wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

это создает файл с именем sedlog.txt, которая содержит все ссылки, найденные на указанном сайте. Вы можете использовать PHP или сценарий оболочки для преобразования текстового файла sitemap в XML sitemap. Настройте параметры команды wget (accept/reject/include/exclude), чтобы получить только необходимые ссылки.


вы можете использовать этот скрипт perl, чтобы сделать трюк:http://code.google.com/p/perlsitemapgenerator/