Правильная настройка robots.txt

171
0/10

Правильная настройка robots.txt

Вы уже рассказали Яндексу и Google что им можно индексировать, а что нет?

Если вы все еще не сделали этого, значит они ходят по запрещенным уголкам сайта и индексируют все, что не надо индексировать.

Как указать поисковикам правильную дорогу? Как рассказать им, что проиндексировать, а что оставить в покое и обходить стороной?

Разберем подробнее.

Содержание

Что такое robots.txt?

Структура robots.txt:

  1. «User-agent»

  2. «Disallow» и «Allow»

  3. «Host»

  4. «Sitemap»

  5. «Crawl-delay»

Как проверить robots.txt?

Какие файлы разрешать, а какие запрещать?

Что должно быть в robots.txt обязательно?

Что такое robots.txt?

Robots.txt — это текстовый файл, который обычно загружается в корневую директорию сайта.

Robots.txt — это обычный текстовый файл, который обычно загружается в корневую директорию сайта.

В нем содержатся правила, с помощью которых поисковым роботам запрещается или разрешается индексирование указанных директорий. С помощью специальных команд можно сообщить роботам дополнительные данные:

  • адрес главного зеркала,

  • интервал индексации,

  • местонахождение файла с картой сайта

  • прочие.

Как только robots.txt был придуман, с его помощью можно было только запрещать. Возможность разрешать индексирование появилась позднее благодаря Google и Yandex.

Структура robots.txt

«User-agent»

Директива «User-agent» всегда добавляется в начале секции и указывает к какому поисковику относятся следующие правила.

User-agent: googlebot

«Disallow» и «Allow»

За «User-agent» следуют «Disallow» и «Allow». Они запрещают или разрешают индексацию указанных разделов, страниц, файлов.

Для этих инструкций применяйте специальные символы:

  • * — любой знак.

  • $ — конец строки.

С помощью такой конструкции запретите индексацию всего сайта всем поисковикам.

User-agent: *
Disallow: /

А так — только для Google:

User-agent: googlebot
Disallow: /

Закройте доступ к папке «forbidden», указав:

User-agent: *
Disallow: /forbidden/

А так вы запретите всю папку, но откроете один файл, находящийся в ней:

User-agent: *
Аllow: /forbidden/indexed.html
Disallow: /forbidden/

Конец строки указывается так:

User-agent: *
Disallow: /*.txt$

«Host»

Для Яндекса существует специальная инструкция «Host». Она указывает на главное зеркало сайта.

User-agent: *
host: https://site.ru

Если ваш сайт до сих пор работает на устаревшем протоколе http, то директива «host» объявляется так:

User-agent: *
host: site.ru

«Sitemap»

В конце файла с помощью указания «Sitemap» задается адрес *.xml карты сайта.

User-Agent: *
Sitemap: httрs://site.com/sitemap.xml

«Crawl-delay»

Если сервер слаб и излишняя нагрузка на сайт противопоказана, задайте интервал индексации директории.

crawl-delay: 10

Этой строчкой вы указали период в 10 секунд.

Устанавливайте его с осторожностью. Если вы оставите значение равным 10 секундам, то это будет означать, что поисковые роботы смогут просканировать за 24 часа только 8 640 страниц, файлов или директорий. Для нового сайта это нормально, а для старого с большим количеством контента — мизер.

Google не учитывает «Crawl-delay».

Как проверить robots.txt?

Для проверки правильности составления файла обратитесь к сервису Google Вебмастер. Перейдите в раздел «Сканирование» → «Посмотреть как Googlebot». Далее нажмите кнопку «Получить и отобразить». На двух скриншотах отобразятся две точки зрения на сайт: роботов и пользователей. Ниже — перечень файлов, закрытых для индексации. Запрет индексирования этих файлов является причиной неправильного сканирования страницы. Как правило, это стилевые файлы CSS и скрипты JS. Разрешите доступ к ним и оба скриншота должны стать одинаковыми.

На двух скриншотах отобразятся две точки зрения на сайт: роботов и пользователей.

Файлы, расположенные на серверах поставщиков услуг невозможно запретить или разрешить к индексированию. Бесполезно разрешать индексировать кнопки социальных сетей, предоставленные сторонними сервисами или файлы метрики.

Какие файлы разрешать, а какие запрещать?

В интернет магазинах закройте для индексации:

  • страницу аутентификации,

  • восстановления пароля,

  • корзину,

  • сравнения продукта,

  • «Мои желания»,

  • страницу результатов поиска.

Для всех сайтов необходимо также закрыть:

  • страницы консоли администрирования,

  • системные файлы, директории и страницы,

  • разделы содержащие конфиденциальную информацию и личные данные пользователей.

Большая часть движков сайтов и систем управления контентом уже имеют в своем составе готовый файл robots.txt. В нем соблюдены все рекомендации. Но в процессе развития, могут создаваться новые каталоги. Для них напишите отдельные инструкции.

Что должно быть в robots.txt обязательно?

Для русскоязычных сайтов в robots.txt обязательно должны быть:

  • «User-agent:Yandex» — директивы для краулера Яндекса.

  • «User-agent:Googlebot» — для поисковика Google.

  • «User-agent:*» — для всех остальных роботов, включая Яндекс и Google.

  • «Host» для «User-agent:Yandex». В нем укажите главное зеркало сайта.

  • Sitemap — для любого робота с адресом *.xml карты сайта.

Читайте также:

Ваша оценка:
Нравится?
Обсуждение
    Для участия в обсуждении на сайт