Содержание
Что такое robots.txt?
Структура robots.txt:
-
«User-agent»
-
«Disallow» и «Allow»
-
«Host»
-
«Sitemap»
-
«Crawl-delay»
Как проверить robots.txt?
Какие файлы разрешать, а какие запрещать?
Что должно быть в robots.txt обязательно?
Что такое robots.txt?
Robots.txt — это текстовый файл, который обычно загружается в корневую директорию сайта.
В нем содержатся правила, с помощью которых поисковым роботам запрещается или разрешается индексирование указанных директорий. С помощью специальных команд можно сообщить роботам дополнительные данные:
Как только robots.txt был придуман, с его помощью можно было только запрещать. Возможность разрешать индексирование появилась позднее благодаря Google и Yandex.
Структура robots.txt
«User-agent»
Директива «User-agent» всегда добавляется в начале секции и указывает к какому поисковику относятся следующие правила.
User-agent: googlebot
«Disallow» и «Allow»
За «User-agent» следуют «Disallow» и «Allow». Они запрещают или разрешают индексацию указанных разделов, страниц, файлов.
Для этих инструкций применяйте специальные символы:
-
* — любой знак.
-
$ — конец строки.
С помощью такой конструкции запретите индексацию всего сайта всем поисковикам.
User-agent: *
Disallow: /
А так — только для Google:
User-agent: googlebot
Disallow: /
Закройте доступ к папке «forbidden», указав:
User-agent: *
Disallow: /forbidden/
А так вы запретите всю папку, но откроете один файл, находящийся в ней:
User-agent: *
Аllow: /forbidden/indexed.html
Disallow: /forbidden/
Конец строки указывается так:
User-agent: *
Disallow: /*.txt$
«Host»
Для Яндекса существует специальная инструкция «Host». Она указывает на главное зеркало сайта.
User-agent: *
host: https://site.ru
Если ваш сайт до сих пор работает на устаревшем протоколе http, то директива «host» объявляется так:
User-agent: *
host: site.ru
«Sitemap»
В конце файла с помощью указания «Sitemap» задается адрес *.xml карты сайта.
User-Agent: *
Sitemap: httрs://site.com/sitemap.xml
«Crawl-delay»
Если сервер слаб и излишняя нагрузка на сайт противопоказана, задайте интервал индексации директории.
crawl-delay: 10
Этой строчкой вы указали период в 10 секунд.
Устанавливайте его с осторожностью. Если вы оставите значение равным 10 секундам, то это будет означать, что поисковые роботы смогут просканировать за 24 часа только 8 640 страниц, файлов или директорий. Для нового сайта это нормально, а для старого с большим количеством контента — мизер.
Google не учитывает «Crawl-delay».
Как проверить robots.txt?
Для проверки правильности составления файла обратитесь к сервису Google Вебмастер. Перейдите в раздел «Сканирование» → «Посмотреть как Googlebot». Далее нажмите кнопку «Получить и отобразить». На двух скриншотах отобразятся две точки зрения на сайт: роботов и пользователей. Ниже — перечень файлов, закрытых для индексации. Запрет индексирования этих файлов является причиной неправильного сканирования страницы. Как правило, это стилевые файлы CSS и скрипты JS. Разрешите доступ к ним и оба скриншота должны стать одинаковыми.
Файлы, расположенные на серверах поставщиков услуг невозможно запретить или разрешить к индексированию. Бесполезно разрешать индексировать кнопки социальных сетей, предоставленные сторонними сервисами или файлы метрики.
Какие файлы разрешать, а какие запрещать?
В интернет магазинах закройте для индексации:
Для всех сайтов необходимо также закрыть:
-
страницы консоли администрирования,
-
системные файлы, директории и страницы,
-
разделы содержащие конфиденциальную информацию и личные данные пользователей.
Большая часть движков сайтов и систем управления контентом уже имеют в своем составе готовый файл robots.txt. В нем соблюдены все рекомендации. Но в процессе развития, могут создаваться новые каталоги. Для них напишите отдельные инструкции.
Что должно быть в robots.txt обязательно?
Для русскоязычных сайтов в robots.txt обязательно должны быть:
-
«User-agent:Yandex» — директивы для краулера Яндекса.
-
«User-agent:Googlebot» — для поисковика Google.
-
«User-agent:*» — для всех остальных роботов, включая Яндекс и Google.
-
«Host» для «User-agent:Yandex». В нем укажите главное зеркало сайта.
-
Sitemap — для любого робота с адресом *.xml карты сайта.
Читайте также: