Дублированный контент

Все термины

Дублированный контент — страница сайта, доступная одновременно по нескольким URL.

В данном случае поисковые системы воспринимают один и тот же веб-документ как разные, при этом содержащие идентичный контент. Такая ситуация приводит к явлению, получившему название “каннибализация”. Дубли конкурируют между собой и в конечном итоге один из них исключается из индекса. Появление дублированного контента обусловлено особенностью работы современных CMS. Его источниками становятся адреса со слэшем и без, RSS-ленты, версии для печати и прочие. Кроме того, дубли часто появляются при неправильной настройке ЧПУ.

Главной проблемой является невозможность предсказать, какую именно из страниц-двойников поисковик сочтет оригиналом. В итоге, из выдачи может выпасть страница, для которой уже закуплены вечные ссылки, что приведет к пустой растрате бюджета на продвижение, а также негативно скажется на ранжировании сайта в целом.

Методы борьбы с дублированным контентом

Чтобы предотвратить появление дублей, необходимо:

  • Указать в robots.txt основной сайт, используя директиву host, а также прописать главное зеркало в соответствующем разделе Яндекс.Вебмастер;
  • Закрыть дубли от индексации с помощью директивы Disallow файла robots.txt;
  • Правильно настроить модуль SEF используемой системы управления (CMS), проверив, чтобы генератор человекопонятных ссылок создавал по одному URL на каждый веб-документ;
  • Установить 301-й редирект, создав перенаправление с дублированных страниц на оригинальные (например, с http://www.example.com на http://example.com, с http://example.com/index.php на http://example.com и т.д.). Для этих целей можно воспользоваться возможностями файла дополнительной конфигурации сервера htaccess;
  • Явно указать каноническую страницу в теге rel=“canonical”.

Выявить же дубли можно бесплатной утилитой Xenu Link Sleuth. Просканировав сайт, достаточно отсортировать полученные результаты по заголовкам, после чего остается найти визуально похожие адреса.