Основные директивы robots.txt
- User-agent — дает возможность обратиться к определенному типу краулеров. Так, конструкция User-agent: YandexBot означает, что все нижеследующие правила изложены только для ботов Яндекса. Если требуется прописать директивы для всех роботов, в начале robots.txt необходимо добавить: User-agent: * .При отсутствии этой строчки файл не будет учитываться ни одной поисковой системой;
- Disallow/Allow — запрет/разрешение доступа к каталогам и отдельным страницам сайта. Примеры использования:
- Sitemap — указывает на местоположение карты сайта:
- Host — задает главное зеркало интернет-ресурса. Если таких директив несколько, будет учитываться только первая:
- Clean-param — отбрасывает лишние параметры динамически сформированных адресов. Предположим, владелец магазина хочет узнать, с каких именно партнерских проектов к нему приходят клиенты. Для этих целей к URL добавляется параметр “referral”: https://example.com/page.php?referral=partner_1, https://example.com/page.php?referral=partner_2 и т.д. Такой подход повлечет за собой появление дублей в индексе, так как по каждой ссылке доступна одна и та же страница. Чтобы этого не произошло, следует добавить директиву, благодаря которой параметр referral не будет учитываться:
- Crawl-delay — позволяет задать минимальный период времени (в секундах), по истечении которого бот может повторить обход площадки, если сервер перегружен и индексирование невозможно:
# Полный запрет индексации
Disallow: /
# Сокрытие административного раздела CMS
Disallow: /admin
# Открыт доступ только к странице page.html
Allow: /page.html
Disallow: /
Sitemap: https://example.com/sitemap.xml
# Учитывается ботом
Host: https://example.com
# Не учитывается
Host: https://new-example.com
Clean-param: referral /page.php
Crawl-delay: 10