Как бороться с дублированным контентом

Что такое неуникальный контент?

Неуникальный или дублированный контент, в разговорной речи «дубль» — это одна или несколько страниц, которые целиком или отчасти совпадают с другой. Каждая из страниц-дублей имеет уникальный адрес. Копий у страницы может быть одна или несколько. Дубли могут располагаться внутри сайта или на внешних площадках.

Виды дублированного контента

Дубли подразделяются по месту расположения:

внутренние — эти страницы расположены на одном и том же сайте.
внешние — копии находятся на разных площадках.

По степени идентичности:

четкие — полностью совпадающие по содержанию страницы.
частичные, нечеткие — не полностью идентичные страницы.

Причины появления дублей

1. Копирование информации

Внешние дубли образуются из-за прямого сознательного копирования информации с одного сайта на другой. Ситуации копирования контента возникают часто. Один владелец сайта может счесть контент на другом сайте полезным и скопировать его на свою площадку. В этом случае страница с копией не будет интересна поисковым системам. Ее наличие может привести к падению авторитета всего домена в целом.

С другой стороны, если материал действительно полезный и интересный, то параметры времени, проведенного на сайте, глубины просмотра и снижения отказов может перекрыть падение авторитета.

2. Дублирование данных о товарах

Владельцы крупных интернет-магазинов, где выставлены товары многих производителей обычно не добавляют контент на сайт вручную. Производители рассылают дистрибьюторам *.xml файлы, в которых содержатся полные номенклатурные данные выпускаемой продукции. С помощью таких файлов за короткое время администраторы сайтов загружают и обновляют тысячи наименований товаров.

В этом случае не помогут никакие методы борьбы с дублями, кроме ручного переписывания карточек товаров и замена фотографий.

3. Дублирование новостей

Новостной контент часто бывает дублированным. Агрегаторы «собирают» последние известия методом парсинга с тысяч других площадок и размещают его без изменений.

4. Внутренние дубли

Четкие копии появляются из-за:

логики работы CMS. В Wordpress могут появляться абсолютно идентичные страницы, которые отличаются только адресами.
Некомпетентной работы веб-мастера, администратора или разработчика сайта.
Применения новой темы оформления с другой архитектурой меню и системой перелинковки.
Создаются осознанно: версии страницы для печати, для слабовидящих и т.д.

Нечеткие копии возникают по причинам:

Частичного повторения контента одной страницы на другой.
Системы постраничного листинга. В старых шаблонах для Wordpress это было распространенной проблемой. Систему пагинации вводят для того, чтобы разбить длинный список или архив на несколько страниц.

Почему дублированный контент вреден?

Влечет понижение в выдаче.
Копии отрицательно сказываются на результатах оптимизации. Поисковики понижают или удаляют из выдачи сайты с неуникальным, читай бесполезным содержимым. С точки зрения алгоритмов, нет резона размещать один и тот же текст на страницах с разными адресами. Неважно, разным доменам они принадлежат или одному.
Может быть признан за источник.
Бывает, что поисковик выбирает в качестве основной страницу с неуникальным контентом. При этом ссылочный профиль и поведенческие факторы на скопированной странице ниже. Это значит, что она будет показана на нижних строчках списка поиска.
Потеря ссылок.
Пользователь мог бы поделится на своей странице в соцсетях оригиналом страницы. Но ему на глаза попался дубль. Он делает ссылку на него, тем самым неосознанно ухудшая судьбу оригинала.
Перелив веса на дубли.
Скопированный контент забирает на себя существенную часть ссылочной массы, нарушает ссылочный профиль оригинала и сбивает процесс оптимизации и поискового продвижения.

Как проверить наличие неуникальных страниц?

Есть несколько способов проверки и все они простые и бесплатные.

1. Через поиск

Воспользуйтесь расширенным поиском в Яндексе или Google. Напечатайте url сайта в специальное поле для адреса в расширенном поиске, и короткий отрывок текста со страницы, которую надо проверить.

Посмотрите на выдачу. Все хорошо, если в выдаче только один результат. Это значит, что дублей нет.

Если результатов больше одного, значит, дубли есть и с ними надо бороться. На скриншоте именно такая ситуация.

Если результатов больше одного, это значит, что дублей много и с ними надо бороться

2. Через сервисы уникальности

Введите в поиске «Проверить текст на уникальность». В результатах отобразятся сервисы по проверке. Самый «придирчивый», глубокий алгоритм у text.ru. Он обеспечивает самую качественную проверку любого текста на уникальность. Инструмент не удастся обмануть изменением слов по падежам, числам, временам и родам. Будет выявлена и машинная замена каждого четвертого или третьего слова на синонимы. Не повлияет на уникальность перестановка и введение новых слов.

На скриншоте результат проверки текста, дублированного много десятков раз.

На скриншоте результат проверки текста, дублированного много десятков раз

Как бороться с внутренними дублями?

1. Redirect 301

Это самый результативный метод. Суть его в том, что поисковик переадресуется со страницы с дублем на оригинальную. Через некоторое время дублированный контент удаляется из индекса.

Прописать 301 редирект можно разными способами и это зависит от настроек сервера и программного обеспечения сайта.

Способы сделать переадресацию 301:

При помощи файла .htaccess.
При помощи PHP скрипта.
ASP.
ASP.NET.
ColdFusion.
JSP.
CGI PERL.
Ruby on Rails.
В nginx.

Ваш программист, разработчик сайта, знает какой способ применить для того, чтобы 301 переадресация работала продуктивно.

2. Указание канонической ссылки

С помощью конструкции

<link rel= «canonical»>

укажите поисковым системам контент какой страницы является оригинальным. Впишите в код каждой дублированной страницы такую строчку, заменив адрес на настоящий:

<link rel="canonical" href="https://mysite.com/canonical_content_is_here.html">

Эту работу можно проводить вручную, но лучше использовать моды для вашей CMS, которые в полуавтоматическом режиме указывают канонические ссылки. Воспользуйтесь поиском и установите на свой сайт такое дополнение.

3. Директива в файл robots.txt

О том, как правильно составить файл robots.txt, читайте в нашем материале «Правильная настройка robots.txt».

Используйте директивы для запрета обхода поисковыми сканерами страниц, на которых контент не считается оригинальным. Для этого применяйте оператор Disallow. Этот способ действенный, но кропотливый. В большом интернет магазине может набраться несколько тысяч неоригинальных страниц, и все их нужно запретить.

Как удалить неуникальные страницы из индекса?

Яндекс сам удаляет дублированные страницы из индекса на основании сведений из файла robots.txt.

Чтобы удалить дубли из индекса Google, зайдите в Google Webmaster, далее в раздел «Параметры url» и там проведите все необходимые манипуляции.

Чтобы удалить дубли из индекса Google, зайдите в Google Webmaster, зайдите в раздел “Параметры url”