Поисковое продвижение сайта зависит от нескольких десятков факторов. Один из ключевых – это простой текстовый файл robots.txt. Он напрямую влияет на индексацию страниц, с чего и начинается «борьба» за высокие позиции в органической выдаче. Качество работы этого инструмента зависит от владельца ресурса, от того, насколько правильно файл заполнен, соответствует ли он реальной структуре интернет-магазина или сайта-визитки.
Содержание
- Что такое robots.txt и зачем он нужен
- Как создать и где находится
- Основные правила
- Как проверить
- Заключение
Что такое robots.txt и зачем он нужен
Применять файл robots.txt начали еще в 1994 году, согласно стандарту исключений, принятому консорциумом W3C. Его по сей день использует большая часть современных поисковиков, в том числе Яндекс и Google.
Важно учитывать:
- Файл содержит инструкции, которые являются рекомендацией к индексированию проекта. На практике иногда приходится сталкиваться с игнорированием команд.
- Поисковая система обращается сначала к нему перед каждым сканированием сайта и только потом приступает непосредственно к считыванию страниц.
- Исключать из индекса принято все служебные каталоги вроде корзины, результатов поиска, путь к учетной записи администратора и пр.
Пока идет разработка сайта можно его закрыть от поисковиков полностью. Это обеспечит защиту от попадания в индекс «мусорных» ссылок. В идеале поисковая система должна «видеть» только те страницы, которые планируется продвигать – главная, каталоги, карточки товаров, статьи в блоге.
ы
Чтобы упростить задачу, в robots.txt указывают ссылку на карту сайта в формате XML в виде файла sitemap.xml. В нем приведен список страниц, подлежащих индексации, или ссылки на другие XML-карты, если общее количество URL превышает 50 000 или размер файла получается более 50 Мб.
Как создать и где находится
Теперь о том, где файл robots.txt расположен. Независимо от системы CMS он находится в корневом каталоге сайта. Посмотреть содержимое можно из браузера по ссылке – https://домен/robots.txt. При первичном развертывании платформы обычно создается некий стандартный файл, который нужно обязательно настраивать.
Существует несколько способов сгенерировать правильный вариант:
- Вручную, при помощи редактора Блокнот или Notepad++ внести в него нужные директивы.
- Сгенерировать файл онлайн-инструментом вроде https://www.cy-pr.com/tools/robotstxt/.
- Использовать типовой шаблон для WordPress, 1С-Битрикс, Joomla и т.д.
Редактировать файл можно сразу на хостинге. Или скопировать туда готовый вариант с заменой по завершении настройки. После сохранения изменений желательно сразу проверить, доступны ли все продвигаемые страницы. Такая функция есть в сервисе Яндекс. Вебмастер. Достаточно подключить сайт к нему и зайти в раздел Инструменты> Анализ robots.txt.
Основные правила
Понимать, как создать robots и что в нем менять должен каждый оптимизатор. Или даже владелец ресурса, если он хотя бы периодически касается его продвижения. Задача простая, т.к. применяют всего 4-5 директив, указывающих поисковому роботу что индексировать, а что нет.
Рассмотрим правила их использования:
- User-Agent. Определяет, какому именно поисковику предназначены прописанные в блоке инструкции. Варианты:
- User-agent: * – общий перечень директив.
- User-agent: GoogleBot – команды для поиска Гугл.
- User-agent: Yandex – то же, только для Яндекса.
- Disallow. Директива, запрещающая индексировать отдельные страницы или каталоги сайта. Ее применяют для служебных URL, дублей, сгенерированных системой пагинации, каталога с персональными данными пользователей и пр. Варианты:
- Disallow: /users/ – от индексации закрыт весь каталог под названием Users.
- Disallow: */trackback – то же, только относится ко всем подкаталогам с указанным наименованием.
- Disallow: /? – запрет на индексацию всех страниц, URL которых начинается со знака вопроса.
- Allow. Противоположная Disallow директива. Ее применяют для принудительного запуска индексации конкретных каталогов, файлов. Например, из «закрытого» каталога. Варианты:
- Allow: /wp-*.png – команда сканировать все файлы с расширением PNG в каталогах и подкаталогах, начинающихся с WP-.
- Allow: /*/*.js – то же, только в отношении скриптов на JavaScript.
- Sitemap. Команда сообщает поисковому роботу, где расположена XML-карта сайта. Нужно указывать полный URL – https://домен/sitemap.xml. В этом файле можно указать приоритет индексации страниц, дату их создания или изменения.
Подробное руководство по заполнению файла роботс.тхт есть в справке сервиса Яндекс. Вебмастер – https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html. Основная задача оптимизатора (или владельца) сайта заключается в составлении списка страниц, которые точно надо исключить из индекса поисковиков.
В перечень точно должны входить дубли, страницы-дубли с GET-параметрами, к которым часто относятся страницы пагинации или сортировки, страницы с неуникальным контентом, применяемые при работе сценариев вроде «Заказ принят. Спасибо!». Также в индексе нечего делать файлам движка CMS, информационно бесполезным URL. По итогу подобной «чистки» должен получиться список продвигаемых страниц, с которым работать намного удобнее, чем с полной структурой сайта.
Как проверить
После загрузки отредактированного файла на хостинг его нужно проверить. Поможет в этом раздел «Анализ robots.txt» в Яндекс. Вебмастере. По клику кнопки «Проверить» система выдаст, есть ли в нем ошибки. Если имеются, то в какой именно строке требуется корректировка директив.
Чуть ниже расположено поле «Разрешены ли URL?».
Чтобы убедиться в запрете/разрешении конкретных каталогов достаточно вставить туда ссылки на них и кнопку «Проверить». При наличии доступа к сканированию URL будет помечен зеленой галочкой. Все запрещенные к индексации система маркирует красным цветом. Посмотреть примеры мусорных ссылок можно в разделе Индексирование> Страницы в поиске.
Заключение
Вот такая простая инструкция, позволяющая убрать из поиска ненужные страницы, акцентировать внимание Яндекса и Google на продвигаемых. Файл robots.txt периодически приходится править, т.к. некоторые служебные ссылки начинают появляться в поиске по истечении пары месяцев после запуска ресурса. Например, результаты поиска/фильтрации.