Как остановить поисковые системы от обхода всего веб-сайта?
Я хочу остановить поисковые системы от обхода всего моего сайта.
у меня есть веб-приложение для сотрудников компании для использования. Это размещено на веб-сервере, чтобы сотрудники компании могли получить к нему доступ. Никто другой (публика) не нуждался бы в нем или не находил бы его полезным.
поэтому я хочу добавить еще один уровень безопасности (теоретически), чтобы попытаться предотвратить несанкционированный доступ, полностью удалив доступ к нему всеми поисковыми ботами/искателями. Имея индекс Google наш сайт, чтобы сделать его доступным для поиска, бессмыслен с точки зрения бизнеса и просто добавляет еще один способ для хакера найти веб-сайт в первую очередь, чтобы попытаться взломать его.
Я знаю, что в robots.txt
вы можете сказать поисковым системам не сканировать определенные каталоги.
можно ли сказать ботам не сканировать весь сайт без необходимости перечислять все каталоги, которые не нужно сканировать?
это лучше всего сделать с robots.txt
или это лучше сделать .htaccess или другие?
3 ответов
лучше всего обращаться с robots.txt
файл, только для ботов, которые уважают файл.
чтобы заблокировать весь сайт, добавьте это в robots.txt
в корневом каталоге вашего сайта:
User-agent: *
Disallow: /
ограничить доступ к вашему сайту для всех остальных, .htaccess
лучше, но вам нужно будет определить правила доступа, например, по IP-адресу.
ниже .htaccess
правила для ограничения всех, кроме ваших людей из вашей компании IP:
Order allow,deny
# Enter your companies IP address here
Allow from 255.1.1.1
Deny from all
используя robots.txt
чтобы сохранить сайт из индексов поисковой системы имеет одна незначительная и малоизвестная проблема: если кто-нибудь когда-либо ссылки на ваш сайт с любой страницы, индексированной Google (что должно произойти для Google, чтобы найти ваш сайт в любом случае,robots.txt
или нет), Google все еще может индексировать ссылке и показать его как часть результатов поиска, даже если вы не позволяете им получить страницу, на которую указывает ссылка.
если это может быть проблема для вас, решение заключается в не использовать robots.txt
, но вместо этого включить robots
мета-тег со значением noindex,nofollow
на каждой странице вашего сайта. Вы даже можете сделать это .htaccess
файл с помощью mod_headers и и X-Robots-Tag
заголовок HTTP:
Header set X-Robots-Tag noindex,nofollow
эта директива добавит заголовок X-Robots-Tag: noindex,nofollow
к каждой странице это относится, в том числе не HTML-страниц, таких как изображения. Конечно, вы можете также включить соответствующий метатег HTML, только в случай (это более старый стандарт, и поэтому, предположительно, более широко поддерживается):
<meta name="robots" content="noindex,nofollow" />
обратите внимание, что если вы это сделаете, Googlebot все равно попытается сканировать любые ссылки, которые он находит на ваш сайт, так как ему нужно получить страницу, прежде чем он увидит заголовок / мета-тег. Конечно, некоторые могут счесть это функцией, а не ошибкой, так как это позволяет просматривать журналы доступа, чтобы увидеть, если Google нашел какие-либо ссылки на ваш сайт.
в любом случае, что бы вы ни делали, имейте в виду, что трудно держать" секретный " сайт в секрете очень долго. Как проходит время, вероятность того, что пользователи случайно утечка ссылкой на сайт приближается к 100%, и если есть какие-либо основания предполагать, что кто-то будет заинтересован в поиске сайта, вы должны предположить, что они будут. Таким образом, убедитесь, что вы и поместите надлежащие элементы управления доступом на свой сайт, обновите программное обеспечение и регулярно проверяйте его безопасность.
Если безопасность ваша забота, и блокировка до IP-адресов не жизнеспособна, вы должны изучить требование ваших пользователей для аутентификации в некотором роде для доступа к вашему сайту.
Это означало бы, что любой (google, бот, человек, который наткнулся на ссылку), который не аутентифицирован, не сможет получить доступ к вашим страницам.
вы можете испечь его на свой сайт или использовать HTTP Basic Идентификация.