Блокируйте всех ботов / искателей / пауков для специального каталога с помощью htaccess

Я пытаюсь заблокировать всех ботов/роботов/пауков в специальном каталоге. Как я могу сделать это с htaccess? Я немного поискал и нашел решение путем блокировки на основе пользовательского агента:

RewriteCond %{HTTP_USER_AGENT} googlebot

теперь мне понадобится больше пользовательских агентов (для всех известных ботов), и правило должно быть действительным только для моего отдельного каталога. У меня уже есть роботы.txt, но не все ползунки смотрят на него ... Блокировка по IP-адресу не является опцией. Или есть другие решения? Я знаю защита паролем, но я должен сначала спросить, будет ли это вариант. Тем не менее, я ищу решение на основе пользовательского агента.

3 ответов


вам нужно включить mod_rewrite. Поместил ее в .htaccess в этой папке. При размещении в другом месте (например, родительская папка) шаблон перезаписи должен быть слегка изменен, чтобы включить это имя папки).

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]
  1. Я ввел только несколько ботов - вы добавляете любого другого себя (случай письма не имеет значения).
  2. это правило будет отвечать кодом результата "403 Access Forbidden" для таких запросов. Вы можете перейти на другой ответ HTTP-код, если вы действительно хотите (403 наиболее подходит здесь, учитывая ваши требования).

зачем использовать .htaccess или mod_rewrite для задания, которое специально предназначено для robots.txt? Вот роботы.txt snippet вам нужно будет заблокировать определенный набор каталогов.

User-agent: *
Disallow: /subdir1/
Disallow: /subdir2/
Disallow: /subdir3/

это заблокирует все поисковые боты в каталогах /subdir1/, /subdir2/ и /subdir3/.

более подробное объяснение см. здесь: http://www.robotstxt.org/orig.html


Я знаю, что тема "старая" , но все же, для ppl, который приземлился здесь также (как и я), можно посмотреть здесь большой черный 5г 2013.
Это отличная помощь и не только для wordpress, но и для всех других сайтов. Работает удивительный имхо.
Еще один, на который стоит посмотреть, может быть Linux рассматривает анти-спам через .реврайт