Файл robots.txt

Для качественного считывания контента вашего сайта роботами желательно подготовить специальный файл robots.txt. Содержимое документа направляет поисковики на нужные страницы, блокирует вход при надобности. Неправильная настройка может стать ключевым препятствием для попадания сайта на страницы популярных поисковых систем. На самом деле настройка файла для роботов не занимает много времени.

Как создать и запустить элемент

Некоторые веб-разработчики умудряются обойтись без этого файла. Часто такая тенденция характерна для новичков, которые по незнанию не взялись за его создание и настройку. Конечно, лучше не принимать никаких действий, чем напортачить, настраивая наобум. В противном случае, можно закрыть сайт от поисковиков. Но следует учесть, что robots.txt обеспечит должную защиту ваших данных от назойливых спам-роботов, занимая минимальное место на сервере размещения сайта.

Для начинающих блоггеров можно порекомендовать использование готовых шаблонов – в сети размещено достаточное количество для разных платформ. После закачивания файла исправьте в шаблоне название блога на свое.

 

Обозначение команд

User-agent: * – обращение ко всем возможным ботам сразу (со звездочкой), указание одного поисковика – только к нему (например, к Google).

Disallow: – используется для перечисления элементов, нежелательных для обработки индексирующими ботами-поисковиками.

Host – для домена без трех букв «w».

Sitemap: – для указания адреса на карту сайта.

Для быстрого помещения файла в корневую веб-директорию воспользуйтесь платформой хостинг-провайдера или Filezilla.

Настройка файла для всех поисковых ботов

Некоторые веб-мастера отдают предпочтение созданию файла своими силами.  Для этого в программе «Блокнот», который есть в каждой ОС, создайте файл с названием «robots» (без верхнего регистра). Придерживайтесь максимально допустимого размера – не больше 500 Кб.

В открытом файле пропишите графу агента. В ней укажите название поисковика (самые популярные - Yandex, Googlebot или StackRambler). Если вам нужно настроить индексирование сразу всех поисковых систем, поставьте звездочку (*)

Далее поместите список страниц / папок для блокировки индексирования с помощью команды Disallow. В начале перечисляются 3 директории (images, cgi-bin, css), после них – конкретный файл (file.html).

Настройка для конкретных роботов

Для Яндекса добавляется директива host во избежание дублирования контента. Его считывает лишь этот бот, поэтому пропишите команду за образцом:

User-agent: Yandex

Disallow: / cgi-bin

Host: www. [доменное имя]

User-agent: *

Disallow: / cgi-bin

Для Гугла все проще. В графе User-agent напишите слово Googlebot, для ограничения просмотра картинок – Googlebot-Image, для мобильной версии ресурса – Googlebot-Mobile.

Проверка работоспособности

Протестировать файл следует в специальных разделах для веб-мастеров. Впишите в соответствующем окне линк перехода на сайт и проверьте его на наличие ошибок. При нормальном показателе разместите верный код в файл, после этого заливайте дополненный элемент на сайт.