Получить кол-во/список страниц для домена

У меня есть необходимость получить список страниц для некоторого домена (в общем случае директории: http://www.example.com/someDir). В общем-то я могу обойти сайт собственным пауком, например, интегрировать вебархивовский heritrix, но ведь поисковые машины (гугл, яха) уже имеют этот список, не хочется повторять раз проделанную работу ...

1 ответов


Данные задачи реализуют программы типа - Teleport или Offline Explorer.

Смысл программ состоит именно в "пауке". Получается список ссылок со страницы, далее по ссылкам каждая из страниц разбирается точно так же. Общий список сортируется в "некотором" порядке.

Смысл в этом есть, только возможны некоторые проблемы с тем, что сам ресурс может попросту заблокировать ваш сервис, который такое делает посчитав за DDOS атаку ;). Или же, другая проблема: представьте себе, что вы данному пауку скормите страницу результатов Google Web Search.

Да, понятно, что можно настроить так, что данные получаются в пределах только определенного доменного имени.

Данной проблемой уже не раз озадачивались великие умы и программисты. Так к примеру Crawler от Shaiful Islam или Blue Crawler и так далее.
Достаточно просто немного поискать . Да, кстати, такие кролеры сделаны для многих языков. Это основная задача любого "поискового" бота.


Один из ответов, который мне удалось найти это yahoo api для site explorer: http://developer.yahoo.com/search/siteexplorer/V1/pageData.html позволяет получать необходимую информацию о страницах сайта по урлу.

Ограничение - 5000 запросов в сутки, запрос возвращает не более 100 страниц, т.о. можно получить до 500 000 страниц в сутки.

Это хороший вариант, но там нельзя указать, что я хочу только text/html что было бы желательно.

Я не смог найти аналогичный сервис у гугла =(


что такое - страница??? html?
а если там php динамический - как будешь страницы считать??