ROBOTS.TXT: Для чего он нужен, как создать и правильно настроить

ROBOTS.TXT: Для чего он нужен, как создать и правильно настроить

Поисковое продвижение сайта зависит от нескольких десятков факторов. Один из ключевых – это простой текстовый файл robots.txt. Он напрямую влияет на индексацию страниц, с чего и начинается «борьба» за высокие позиции в органической выдаче. Качество работы этого инструмента зависит от владельца ресурса, от того, насколько правильно файл заполнен, соответствует ли он реальной структуре интернет-магазина или сайта-визитки.

Содержание

  1. Что такое robots.txt и зачем он нужен
  2. Как создать и где находится
  3. Основные правила
  4. Как проверить
  5. Заключение

Что такое robots.txt и зачем он нужен

Применять файл robots.txt начали еще в 1994 году, согласно стандарту исключений, принятому консорциумом W3C. Его по сей день использует большая часть современных поисковиков, в том числе Яндекс и Google.

Важно учитывать:

  • Файл содержит инструкции, которые являются рекомендацией к индексированию проекта. На практике иногда приходится сталкиваться с игнорированием команд.
  • Поисковая система обращается сначала к нему перед каждым сканированием сайта и только потом приступает непосредственно к считыванию страниц.
  • Исключать из индекса принято все служебные каталоги вроде корзины, результатов поиска, путь к учетной записи администратора и пр.

Пока идет разработка сайта можно его закрыть от поисковиков полностью. Это обеспечит защиту от попадания в индекс «мусорных» ссылок. В идеале поисковая система должна «видеть» только те страницы, которые планируется продвигать – главная, каталоги, карточки товаров, статьи в блоге.
ы
Чтобы упростить задачу, в robots.txt указывают ссылку на карту сайта в формате XML в виде файла sitemap.xml. В нем приведен список страниц, подлежащих индексации, или ссылки на другие XML-карты, если общее количество URL превышает 50 000 или размер файла получается более 50 Мб.

Как создать и где находится

Теперь о том, где файл robots.txt расположен. Независимо от системы CMS он находится в корневом каталоге сайта. Посмотреть содержимое можно из браузера по ссылке – https://домен/robots.txt. При первичном развертывании платформы обычно создается некий стандартный файл, который нужно обязательно настраивать.

Существует несколько способов сгенерировать правильный вариант:

  • Вручную, при помощи редактора Блокнот или Notepad++ внести в него нужные директивы.
  • Сгенерировать файл онлайн-инструментом вроде https://www.cy-pr.com/tools/robotstxt/.
  • Использовать типовой шаблон для WordPress, 1С-Битрикс, Joomla и т.д.

Редактировать файл можно сразу на хостинге. Или скопировать туда готовый вариант с заменой по завершении настройки. После сохранения изменений желательно сразу проверить, доступны ли все продвигаемые страницы. Такая функция есть в сервисе Яндекс. Вебмастер. Достаточно подключить сайт к нему и зайти в раздел Инструменты> Анализ robots.txt.

Основные правила

Понимать, как создать robots и что в нем менять должен каждый оптимизатор. Или даже владелец ресурса, если он хотя бы периодически касается его продвижения. Задача простая, т.к. применяют всего 4-5 директив, указывающих поисковому роботу что индексировать, а что нет.

Рассмотрим правила их использования:

  • User-Agent. Определяет, какому именно поисковику предназначены прописанные в блоке инструкции. Варианты:
    • User-agent: * – общий перечень директив.
    • User-agent: GoogleBot – команды для поиска Гугл.
    • User-agent: Yandex – то же, только для Яндекса.
  • Disallow. Директива, запрещающая индексировать отдельные страницы или каталоги сайта. Ее применяют для служебных URL, дублей, сгенерированных системой пагинации, каталога с персональными данными пользователей и пр. Варианты:
    • Disallow: /users/ – от индексации закрыт весь каталог под названием Users.
    • Disallow: */trackback – то же, только относится ко всем подкаталогам с указанным наименованием.
    • Disallow: /? – запрет на индексацию всех страниц, URL которых начинается со знака вопроса.
  • Allow. Противоположная Disallow директива. Ее применяют для принудительного запуска индексации конкретных каталогов, файлов. Например, из «закрытого» каталога. Варианты:
    • Allow: /wp-*.png – команда сканировать все файлы с расширением PNG в каталогах и подкаталогах, начинающихся с WP-.
    • Allow: /*/*.js – то же, только в отношении скриптов на JavaScript.
  • Sitemap. Команда сообщает поисковому роботу, где расположена XML-карта сайта. Нужно указывать полный URL – https://домен/sitemap.xml. В этом файле можно указать приоритет индексации страниц, дату их создания или изменения.

Подробное руководство по заполнению файла роботс.тхт есть в справке сервиса Яндекс. Вебмастер – https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html. Основная задача оптимизатора (или владельца) сайта заключается в составлении списка страниц, которые точно надо исключить из индекса поисковиков.

В перечень точно должны входить дубли, страницы-дубли с GET-параметрами, к которым часто относятся страницы пагинации или сортировки, страницы с неуникальным контентом, применяемые при работе сценариев вроде «Заказ принят. Спасибо!». Также в индексе нечего делать файлам движка CMS, информационно бесполезным URL. По итогу подобной «чистки» должен получиться список продвигаемых страниц, с которым работать намного удобнее, чем с полной структурой сайта.

Как проверить

После загрузки отредактированного файла на хостинг его нужно проверить. Поможет в этом раздел «Анализ robots.txt» в Яндекс. Вебмастере. По клику кнопки «Проверить» система выдаст, есть ли в нем ошибки. Если имеются, то в какой именно строке требуется корректировка директив.

яндекс. вебмастер

Чуть ниже расположено поле «Разрешены ли URL?».

Вебмастер 2

Чтобы убедиться в запрете/разрешении конкретных каталогов достаточно вставить туда ссылки на них и кнопку «Проверить». При наличии доступа к сканированию URL будет помечен зеленой галочкой. Все запрещенные к индексации система маркирует красным цветом. Посмотреть примеры мусорных ссылок можно в разделе Индексирование> Страницы в поиске.

яндекс вебмастер 3

Заключение

Вот такая простая инструкция, позволяющая убрать из поиска ненужные страницы, акцентировать внимание Яндекса и Google на продвигаемых. Файл robots.txt периодически приходится править, т.к. некоторые служебные ссылки начинают появляться в поиске по истечении пары месяцев после запуска ресурса. Например, результаты поиска/фильтрации.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *