Как остановить поисковые системы от обхода всего веб-сайта?

Я хочу остановить поисковые системы от обхода всего моего сайта.

у меня есть веб-приложение для сотрудников компании для использования. Это размещено на веб-сервере, чтобы сотрудники компании могли получить к нему доступ. Никто другой (публика) не нуждался бы в нем или не находил бы его полезным.

поэтому я хочу добавить еще один уровень безопасности (теоретически), чтобы попытаться предотвратить несанкционированный доступ, полностью удалив доступ к нему всеми поисковыми ботами/искателями. Имея индекс Google наш сайт, чтобы сделать его доступным для поиска, бессмыслен с точки зрения бизнеса и просто добавляет еще один способ для хакера найти веб-сайт в первую очередь, чтобы попытаться взломать его.

Я знаю, что в robots.txt вы можете сказать поисковым системам не сканировать определенные каталоги.

можно ли сказать ботам не сканировать весь сайт без необходимости перечислять все каталоги, которые не нужно сканировать?

это лучше всего сделать с robots.txt или это лучше сделать .htaccess или другие?

3 ответов


лучше всего обращаться с robots.txt файл, только для ботов, которые уважают файл.

чтобы заблокировать весь сайт, добавьте это в robots.txt в корневом каталоге вашего сайта:

User-agent: *
Disallow: /

ограничить доступ к вашему сайту для всех остальных, .htaccess лучше, но вам нужно будет определить правила доступа, например, по IP-адресу.

ниже .htaccess правила для ограничения всех, кроме ваших людей из вашей компании IP:

Order allow,deny
# Enter your companies IP address here
Allow from 255.1.1.1
Deny from all 

используя robots.txt чтобы сохранить сайт из индексов поисковой системы имеет одна незначительная и малоизвестная проблема: если кто-нибудь когда-либо ссылки на ваш сайт с любой страницы, индексированной Google (что должно произойти для Google, чтобы найти ваш сайт в любом случае,robots.txt или нет), Google все еще может индексировать ссылке и показать его как часть результатов поиска, даже если вы не позволяете им получить страницу, на которую указывает ссылка.

если это может быть проблема для вас, решение заключается в не использовать robots.txt, но вместо этого включить robots мета-тег со значением noindex,nofollow на каждой странице вашего сайта. Вы даже можете сделать это .htaccess файл с помощью mod_headers и и X-Robots-Tag заголовок HTTP:

Header set X-Robots-Tag noindex,nofollow

эта директива добавит заголовок X-Robots-Tag: noindex,nofollow к каждой странице это относится, в том числе не HTML-страниц, таких как изображения. Конечно, вы можете также включить соответствующий метатег HTML, только в случай (это более старый стандарт, и поэтому, предположительно, более широко поддерживается):

<meta name="robots" content="noindex,nofollow" />

обратите внимание, что если вы это сделаете, Googlebot все равно попытается сканировать любые ссылки, которые он находит на ваш сайт, так как ему нужно получить страницу, прежде чем он увидит заголовок / мета-тег. Конечно, некоторые могут счесть это функцией, а не ошибкой, так как это позволяет просматривать журналы доступа, чтобы увидеть, если Google нашел какие-либо ссылки на ваш сайт.

в любом случае, что бы вы ни делали, имейте в виду, что трудно держать" секретный " сайт в секрете очень долго. Как проходит время, вероятность того, что пользователи случайно утечка ссылкой на сайт приближается к 100%, и если есть какие-либо основания предполагать, что кто-то будет заинтересован в поиске сайта, вы должны предположить, что они будут. Таким образом, убедитесь, что вы и поместите надлежащие элементы управления доступом на свой сайт, обновите программное обеспечение и регулярно проверяйте его безопасность.


Если безопасность ваша забота, и блокировка до IP-адресов не жизнеспособна, вы должны изучить требование ваших пользователей для аутентификации в некотором роде для доступа к вашему сайту.

Это означало бы, что любой (google, бот, человек, который наткнулся на ссылку), который не аутентифицирован, не сможет получить доступ к вашим страницам.

вы можете испечь его на свой сайт или использовать HTTP Basic Идентификация.

https://www.httpwatch.com/httpgallery/authentication/