Правильная настройка robots.txt

Содержание

Что такое robots.txt?

Структура robots.txt:

Как проверить robots.txt?

Какие файлы разрешать, а какие запрещать?

Что должно быть в robots.txt обязательно?

Что такое robots.txt?

Robots.txt — это текстовый файл, который обычно загружается в корневую директорию сайта.

Robots.txt — это обычный текстовый файл, который обычно загружается в корневую директорию сайта.

В нем содержатся правила, с помощью которых поисковым роботам запрещается или разрешается индексирование указанных директорий. С помощью специальных команд можно сообщить роботам дополнительные данные:

адрес главного зеркала,
интервал индексации,
местонахождение файла с картой сайта
прочие.

Как только robots.txt был придуман, с его помощью можно было только запрещать. Возможность разрешать индексирование появилась позднее благодаря Google и Yandex.

Структура robots.txt

«User-agent»

Директива «User-agent» всегда добавляется в начале секции и указывает к какому поисковику относятся следующие правила.

User-agent: googlebot

«Disallow» и «Allow»

За «User-agent» следуют «Disallow» и «Allow». Они запрещают или разрешают индексацию указанных разделов, страниц, файлов.

Для этих инструкций применяйте специальные символы:

* — любой знак.
$ — конец строки.

С помощью такой конструкции запретите индексацию всего сайта всем поисковикам.

User-agent: * Disallow: /

А так — только для Google:

User-agent: googlebot Disallow: /

Закройте доступ к папке «forbidden», указав:

User-agent: * Disallow: /forbidden/

А так вы запретите всю папку, но откроете один файл, находящийся в ней:

User-agent: * Аllow: /forbidden/indexed.html Disallow: /forbidden/

Конец строки указывается так:

User-agent: * Disallow: /*.txt$

«Host»

Для Яндекса существует специальная инструкция «Host». Она указывает на главное зеркало сайта.

User-agent: * host: https://site.ru

Если ваш сайт до сих пор работает на устаревшем протоколе http, то директива «host» объявляется так:

User-agent: * host: site.ru

«Sitemap»

В конце файла с помощью указания «Sitemap» задается адрес *.xml карты сайта.

User-Agent: * Sitemap: httрs://site.com/sitemap.xml

«Crawl-delay»

Если сервер слаб и излишняя нагрузка на сайт противопоказана, задайте интервал индексации директории.

crawl-delay: 10

Этой строчкой вы указали период в 10 секунд.

Устанавливайте его с осторожностью. Если вы оставите значение равным 10 секундам, то это будет означать, что поисковые роботы смогут просканировать за 24 часа только 8 640 страниц, файлов или директорий. Для нового сайта это нормально, а для старого с большим количеством контента — мизер.

Google не учитывает «Crawl-delay».

Как проверить robots.txt?

Для проверки правильности составления файла обратитесь к сервису Google Вебмастер. Перейдите в раздел «Сканирование» → «Посмотреть как Googlebot». Далее нажмите кнопку «Получить и отобразить». На двух скриншотах отобразятся две точки зрения на сайт: роботов и пользователей. Ниже — перечень файлов, закрытых для индексации. Запрет индексирования этих файлов является причиной неправильного сканирования страницы. Как правило, это стилевые файлы CSS и скрипты JS. Разрешите доступ к ним и оба скриншота должны стать одинаковыми.

На двух скриншотах отобразятся две точки зрения на сайт: роботов и пользователей.

Файлы, расположенные на серверах поставщиков услуг невозможно запретить или разрешить к индексированию. Бесполезно разрешать индексировать кнопки социальных сетей, предоставленные сторонними сервисами или файлы метрики.

Какие файлы разрешать, а какие запрещать?

В интернет магазинах закройте для индексации:

страницу аутентификации,
восстановления пароля,
корзину,
сравнения продукта,
«Мои желания»,
страницу результатов поиска.

Для всех сайтов необходимо также закрыть:

страницы консоли администрирования,
системные файлы, директории и страницы,
разделы содержащие конфиденциальную информацию и личные данные пользователей.

Большая часть движков сайтов и систем управления контентом уже имеют в своем составе готовый файл robots.txt. В нем соблюдены все рекомендации. Но в процессе развития, могут создаваться новые каталоги. Для них напишите отдельные инструкции.

Что должно быть в robots.txt обязательно?

Для русскоязычных сайтов в robots.txt обязательно должны быть:

«User-agent:Yandex» — директивы для краулера Яндекса.
«User-agent:Googlebot» — для поисковика Google.
«User-agent:*» — для всех остальных роботов, включая Яндекс и Google.
«Host» для «User-agent:Yandex». В нем укажите главное зеркало сайта.
Sitemap — для любого робота с адресом *.xml карты сайта.

Правильная настройка robots.txt

Содержание

Что такое robots.txt?

Структура robots.txt

«User-agent»

«Disallow» и «Allow»

«Host»

«Sitemap»

«Crawl-delay»

Как проверить robots.txt?

Какие файлы разрешать, а какие запрещать?

Что должно быть в robots.txt обязательно?

Читайте также: