Основные директивы robots.txt

  1. User-agent — дает возможность обратиться к определенному типу краулеров. Так, конструкция User-agent: YandexBot означает, что все нижеследующие правила изложены только для ботов Яндекса. Если требуется прописать директивы для всех роботов, в начале robots.txt необходимо добавить: User-agent: * .При отсутствии этой строчки файл не будет учитываться ни одной поисковой системой;
  2. Disallow/Allow — запрет/разрешение доступа к каталогам и отдельным страницам сайта. Примеры использования:
  3. # Полный запрет индексации

    Disallow: /

    # Сокрытие административного раздела CMS

    Disallow: /admin

    # Открыт доступ только к странице page.html

    Allow: /page.html

    Disallow: /

  4. Sitemap — указывает на местоположение карты сайта:
  5. Sitemap: https://example.com/sitemap.xml

  6. Host — задает главное зеркало интернет-ресурса. Если таких директив несколько, будет учитываться только первая:
  7. # Учитывается ботом

    Host: https://example.com

    # Не учитывается

    Host: https://new-example.com

  8. Clean-param — отбрасывает лишние параметры динамически сформированных адресов. Предположим, владелец магазина хочет узнать, с каких именно партнерских проектов к нему приходят клиенты. Для этих целей к URL добавляется параметр “referral”: https://example.com/page.php?referral=partner_1, https://example.com/page.php?referral=partner_2 и т.д. Такой подход повлечет за собой появление дублей в индексе, так как по каждой ссылке доступна одна и та же страница. Чтобы этого не произошло, следует добавить директиву, благодаря которой параметр referral не будет учитываться:
  9. Clean-param: referral /page.php

  10. Crawl-delay — позволяет задать минимальный период времени (в секундах), по истечении которого бот может повторить обход площадки, если сервер перегружен и индексирование невозможно:

Crawl-delay: 10