Главная \ Блог \ Техническое SEO \ Файл robots.txt: полное руководство по проверке и настройке

Файл robots.txt: полное руководство по проверке и настройке

  194
Файл robots.txt: полное руководство по проверке и настройке
Владельцы сайтов часто относятся к файлу robots.txt как к формальности: скопировали у конкурента и забыли. А зря. Ошибка в одной строчке может закрыть сайт от поисковиков. Разберем, как составить правильный файл, проверить его и не попасть впросак.
Файл robots.txt: полное руководство по проверке и настройке

Представьте, что поисковая система – это вежливый гость, который пришел осмотреть ваш дом (сайт). Файл robots.txt для сайта – это табличка на входе с инструкцией: «В гостиную можно, а в спальню нельзя». Если таблички нет или она написана с ошибками, гость либо уйдет, либо зайдет туда, куда не следует.

Пример из практики. Один интернет-магазин перестал продавать. Трафик упал, позиции исчезли. При проверке выяснилось: в файле стояла команда Disallow: /, которая закрывает весь сайт. Кто-то случайно добавил слеш не в ту строку. Поисковики перестали заходить на страницы. Такое случается часто. Чтобы этого избежать, нужно понимать логику работы файла и регулярно делать его анализ.

Что такое robots.txt и как он работает

Это обычный текстовый файл. Он лежит в корне сайта, например, https://site.ru/robots.txt. В нем мы обращаемся к поисковым роботам: говорим, какие разделы можно смотреть, а какие нельзя. Если файла нет, роботы считают, что им можно всё.

Главное правило: robots.txt – это рекомендация, а не приказ. Поисковики вроде Яндекса и Google стараются его соблюдать. Но если в нем написано «не смотри эту страницу», а на нее ведут ссылки с других сайтов, робот может зайти всё равно. Поэтому для важных страниц (личные кабинеты, корзины) используют пароли, а не только запреты в файле.

Главные команды: User-agent и Disallow

Любой файл начинается с приветствия. Мы указываем, какому роботу предназначена инструкция.

  • User-agent: Yandex – обращение к роботу Яндекса.

  • User-agent: Googlebot – к роботу Гугла.

  • User-agent: * – обращение ко всем роботам сразу.

Дальше идет команда Disallow. Она запрещает доступ к папке или странице.

  • Disallow: /catalog/ – запрещает папку «каталог».

  • Disallow: /personal – запрещает страницы, адрес которых начинается с «personal».

  • Disallow: (пустая строка) – разрешает всё. Если вы хотите открыть сайт для всех, пишите именно так, а не просто уберите строку.

Все актуальные директивы: что работает сегодня

Разрешение вопреки запрету: Allow

Бывает, что мы закрыли большой раздел, но внутри него есть страницы, которые должны быть в поиске. Команда Allow создает исключение. Например:

Disallow: /catalog/
Allow: /catalog/aktsiya

Закрыли весь каталог, но страницу с акцией оставили открытой. Обе команды работают в паре.

Sitemap – подсказка для робота

Указывает путь к карте сайта. Это необязательно, но удобно: поисковик быстрее узнает о новых страницах. Директиву можно писать в любом месте файла, даже в самом начале или конце. Пример:

Sitemap: https://site.ru/sitemap.xml

Уборка мусора в адресах с помощью Clean-param

Полезная команда для сайтов, где в адресах страниц встречаются параметры вроде ?utm_source=...?session_id=... или ?sort=price. Яндекс понимает эту команду и перестает тратить время на страницы с такими метками. Google её игнорирует. Пример:

Clean-param: utm_source&utm_medium&utm_campaign /

Бережем сервер благодаря Crawl-delay

Если у сайта не самый мощный хостинг, поток роботов может создать нагрузку. Эта команда говорит поисковику: «ходи постранично не чаще, чем раз в N секунд». Яндекс понимает дробные значения, Google только целые числа. Пример:

User-agent: Yandex
Crawl-delay: 2.0

Что уже не работает: устаревшие директивы

Некоторые команды, которые можно встретить в старых файлах или советах из интернета, давно не работают. Их можно смело удалять.

Host. Раньше эта директива указывала Яндекс на главное зеркало сайта (нужно было выбрать site.ru или www.site.ru). Сейчас Яндекс её не поддерживает. Для склеивания зеркал используют 301-й редирект и настройки в панели вебмастера. Если вы настраиваете редиректы, обратите внимание на то, как обрабатываются URL со слешами. Частая ошибка возникает именно из-за путаницы со слешем в конце адреса.

Noindex в файле robots.txt. До осени 2019 года Google позволял запрещать индексацию страниц прямо в robots.txt. Сейчас эта возможность отключена. Если хотите убрать страницу из выдачи, используйте мета-тег <meta name="robots" content="noindex"> в коде страницы или исключение в панели вебмастера. 

Как проверить robots.txt: инструкция

Допустим, вы составили файл или взяли готовый. Как убедиться, что в нем нет ошибок? Просто зайти по адресу и посмотреть исходный код недостаточно. Нужно смотреть, как его видит робот.

Проверка robots txt онлайн в Яндекс Вебмастере.
Это самый надежный способ для российского сегмента. Заходите в инструмент, выбираете свой сайт, находите раздел «Инструменты» – «Анализ robots.txt». Там можно посмотреть, как файл выглядит для Яндекса, и проверить отдельные страницы: доступны ли они для робота или закрыты. Там же система покажет ошибки, если они есть.

Google проверка robots.
В Google Search Console тоже есть такой инструмент. Он помогает проверить, правильно ли Гугл видит ваш файл. Если вы недавно его меняли, в Гугле можно запросить переобход.

Важно понимать: анализ robots.txt Яндекс и Google может давать разные результаты, потому что они по-разному понимают некоторые команды. Поэтому проверять нужно в обеих системах, если ваш сайт ориентирован на оба поисковика.

Частые ошибки и как их избежать

Ошибка 1. Закрыт весь сайт. Мы уже говорили про Disallow: /. Если вы случайно написали это, робот уйдет. Чтобы проверить, просто посмотрите на строчку Disallow. Если после слеша ничего нет, то всё в порядке. Если есть слеш – беда.

Ошибка 2. Закрыты важные файлы. Иногда в robots.txt запрещают папку со стилями и картинками. Делать этого нельзя. Поисковикам нужно видеть оформление страницы, чтобы правильно оценить её качество. Картинки тоже должны индексироваться, если вы хотите получать трафик по ним.

Ошибка 3. Путаница с регистром. Папка /Catalog/ и папка /catalog/ — это разные вещи для робота. Если у вас в адресах страниц большие буквы, в файле они тоже должны быть большими.

Ошибка 4. Сломанный синтаксис. Иногда люди пишут что-то вроде «Disallow /admin» без двоеточия. Это не сработает. Формат должен быть строгим: Disallow: /admin.

Что еще важно помнить

Файл robots.txt – это публичная информация. Любой может зайти и посмотреть, какие папки у вас закрыты. Не надейтесь на него как на средство защиты секретных данных.

Размер файла не должен быть огромным. Поисковики читают только первые 500 килобайт (для Яндекса) или мегабайт (для Google).

После изменений всегда проверяйте, как поисковики видят ваш сайт. Для этого и существуют инструменты вебмастеров.

После изменений всегда проверяйте, как поисковики видят ваш сайт. Для этого и существуют инструменты вебмастеров. Если вы только начинаете разбираться в технической оптимизации, полезно изучить частые ошибки в SEO, они встречаются на каждом втором сайте, и многие из них связаны именно с неправильной настройкой доступа для роботов.

Системный подход к проверке сайта помогает не пропустить ни одной проблемы. О том, с чего именно начать такую проверку, мы подробно рассказываем в пошаговом руководстве по работе в сервисе SEOBernard.

Часто задаваемые вопросы (FAQ)

Что такое robots.txt простыми словами?
Это файл с инструкциями для поисковых роботов. В нем написано, какие страницы сайта можно показывать в поиске, а какие нельзя (например, корзину или личный кабинет).

Как быстро проверить robots.txt на ошибки?
Проще всего проверить robots txt онлайн через Яндекс Вебмастер или Google Search Console. Там есть специальные инструменты, которые покажут, видит ли робот ваш файл и правильно ли понимает команды.

Нужно ли закрывать страницы с фильтрами в robots.txt?
Да, лучше закрыть от индексации страницы с параметрами в адресе (например, ?sort=price), чтобы они не создавали дубли. Для этого используйте директиву Disallow.

Работает ли директива Host сейчас?
Нет, Яндекс больше её не поддерживает. Вместо этого настройте 301-й редирект с ненужного зеркала на главное и укажите основной домен в Яндекс.Вебмастере. Директиву Host из файла можно удалить.

Можно ли запретить индексацию страницы через robots.txt?
Напрямую – нет. Роботс только управляет доступом (может пустить или не пустить робота на страницу). Чтобы страница точно не попала в выдачу, для Яндекса и Google нужно использовать мета-тег <meta name="robots" content="noindex"> в коде самой страницы.

 
Рекомендуем почитать
Проверка кода HTML: как найти ошибки и сделать сайт чище
Проверка кода HTML: как найти ошибки и сделать сайт чище
Ошибки в HTML не всегда напрямую влияют на позиции, но они могут ломать отображение страницы, мешать корректной работе ссылок, форм, метатегов и других важных элементов. Из-за этого страдает и пользователь, и техническое состояние сайта. Разберем, как проводить проверку кода HTML, какие ошибки действительно важны и что исправлять в первую очередь.
Читать далее
  242
Спецпредложение
Модернизация сайта
Аудит вашего сайта поможет увеличить конверсию, количество заказов и заявок
Заказать аудит
Спецпредложение
Скопировано
00
дней
:
00
часов
:
00
минут
:
00
секунд

Годовая подписка на SEO-обслуживание

Специальное предложение до 1 мая 2026

Получить предложение