Robots.txt

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, определяющие порядок индексации веб-ресурса.

Основные директивы robots.txt

User-agent — дает возможность обратиться к определенному типу краулеров. Так, конструкция User-agent: YandexBot означает, что все нижеследующие правила изложены только для ботов Яндекса. Если требуется прописать директивы для всех роботов, в начале robots.txt необходимо добавить: User-agent: * .При отсутствии этой строчки файл не будет учитываться ни одной поисковой системой;
Disallow/Allow — запрет/разрешение доступа к каталогам и отдельным страницам сайта. Примеры использования:

# Полный запрет индексации

Disallow: /

# Сокрытие административного раздела CMS

Disallow: /admin

# Открыт доступ только к странице page.html

Allow: /page.html

Disallow: /

Sitemap: https://example.com/sitemap.xml

Host — задает главное зеркало интернет-ресурса. Если таких директив несколько, будет учитываться только первая:

# Учитывается ботом

Host: https://example.com

# Не учитывается

Host: https://new-example.com

Clean-param — отбрасывает лишние параметры динамически сформированных адресов. Предположим, владелец магазина хочет узнать, с каких именно партнерских проектов к нему приходят клиенты. Для этих целей к URL добавляется параметр “referral”: https://example.com/page.php?referral=partner_1, https://example.com/page.php?referral=partner_2 и т.д. Такой подход повлечет за собой появление дублей в индексе, так как по каждой ссылке доступна одна и та же страница. Чтобы этого не произошло, следует добавить директиву, благодаря которой параметр referral не будет учитываться:

Clean-param: referral /page.php

Crawl-delay — позволяет задать минимальный период времени (в секундах), по истечении которого бот может повторить обход площадки, если сервер перегружен и индексирование невозможно:

Crawl-delay: 10