Robots.txt – как создать и настроить его правильно для сайта?

Robots.txt - как создать и настроить его правильно для сайта?

robots.txt — это текстовый файл, который содержит инструкции для поисковых роботов. Содержимое файла представлено одной или более групп директив, которые позволяют управлять индексацией сайта. Помимо индексации, существует возможность добавления служебной информации, которая помогает поисковым системам. Грамотно составленный файл robots.txt позволяет ускорить индексацию сайта, уменьшить нагрузку на сервер и улучшить поведенческие факторы. В данной статье рассматриваются: создание и редактирования файла robots.txt, синтаксис директив, расположение на хостинге, расположение в панелях управления популярных CMS, генерация.

Файл robots.txt является файлом исключений и правил для поисковых роботов. Данный стандарт принят консорциумом всемирной паутины World Wide Web Consortium (W3C) 30 июня 1994 года. Следование стандарту является полностью добровольным, однако некоторые поисковые системы указывают на возможную некритическую проблему при отсутствии файла robots.txt.

  • Чтобы создать файл robots.txt открыть блокнот и ввести следующие директивы:
  • User-Agent: *Allow: /
  • сохранить файл с именем:
  • robots.txt
  • Имя файла обязательно должно быть написано прописными (маленькими) буквами.
  • Указанные директивы буквально расшифровываются так:
  1. для всех поисковых роботов,
  2. открыть для индексации весь сайт.

Данный файл загружается в корень сайта и номинально решает проблему валидации, которая связана с отсутсвием robots.txt.

Файл robots.txt содержит правила-исключения, а также служебные директивы для поисковых роботов. Правильная настройка позволяет решать основные задачи для корректной индексации сайта:

  1. закрытие сайта/страниц/файлов, 
  2. указание служебной информации.

Закрытие сайта/страниц/файлов

Полное закрытие веб-проекта чаще всего реализуется в случаях:

  1. мультирегиональной настройки ПС для поддоменов,
  2. создания тестового сайта-клона.

Закрытие страниц и файлов сайта реализуется в случаях, когда они:

  1. дублируют контент, 
  2. содержат служебные данные,
  3. содержат тестовые данные, 
  4. не несут пользы в индексе ПС.

Указание служебной информации

Ранее, для ПС Яндекс можно было указывать адрес основного хоста (директива host — неактуально), задержку между обращениями бота к сайту (crawl-delay — неактуально). Сегодня достаточно указывать адрес sitemap.xml, директиву host вытеснили канонические адреса.

Файл всегда должен располагаться на хостинге, в корне сайта. Например, у нас это выглядит так:

Robots.txt - как создать и настроить его правильно для сайта?

Чтобы проверить текущее содержимое файла на сайте, в адресной строке следует ввести:

mysite.ru/robots.txt

где mysite.ru — доменное имя проверяемого сайта

Файл робота в некоторых системах управлениях сайтами можно редактировать из административной панели. Однако, существуют ситуации, когда файл для роботов подменяется на лету специальными плагинами. Поэтому изменение файла на строне хостинга может не работать. В таком случае следует проверить наличие SEO-плагинов и их настроек.

Расположение robots в wordpress

Например, в панели управления wordpress нет отдельного пункта меню для создания и редактирования файла. Поэтому его модификацию можно осуществлять 2 способами:

  1. редактирование с хостинга,
  2. редактирование с использованием плагинов.

Редактирование robots.txt через плагин yoast

Рассмотрим создание и редактирование файла robots.txt в wordpress с помощью плагина yoast. Для того, чтобы создать или редактировать файл в данном плагине необходимо:

  1. установить плагин,
  2. перейти в настройки плагина,
  3. выбрать пункт инструменты,
  4. редактор файлов.

Robots.txt - как создать и настроить его правильно для сайта?

В случае, если файл робот создается через плагин впервые, yoast сообщит, что файл отсутсвует, несмотря на то, что файл может существовать. Тем не менее, если планируется редактирование файла robots из административной панели wordpress, следует нажать на кнопку создания:

Robots.txt - как создать и настроить его правильно для сайта?

  1. После нажатия кнопки можно увидеть базовое содержимое файла, которое можно редактировать:
  2. Robots.txt - как создать и настроить его правильно для сайта?
  3. После редактирования следует сохранить изменения.

Расположение robots.txt в tilda

Tilda самостоятельно генерирует файл робота и при этом не дает возможности редактирования, о чем поддержка сообщает в своей вопросно-ответной системе. Сегодня единственным решение в области редактирования файла robots.txt — экспорт проекта на собственный хостинг. После экспорта появится возможность управления файлом робота.

Расположение robots.txt в 1С-Битрикс

  • В 1С-Битрикс доступ к файлу robots из админ-панели существует. Для того, чтобы управлять файлом робота следует пройти по пути:
  • Маркетинг > Поисковая оптимизация > Настройка robots.txt
  • Для проверки файлов робота у поисковика Яндекс есть валидаторы:
  1. Проверка robots Яндекс,

«Вкалывают роботы»: что такое robots.txt и как его настроить

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге. 

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации. 

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

  • дубли страниц;
  • служебные файлы;
  • файлы, которые бесполезны для посетителей;
  • страницы с неуникальным контентом.

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано. 

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы. 

User-agent

Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него. 

Пример:

User-agent: Yandex

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:

User-agent: *

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow,даем разрешение на индексацию.

Пример:

Allow: /category/

Даем рекомендацию, чтобы индексировались категории. 

Disallow: /

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

  • * звездочка означает любую последовательность символов (либо отсутствие символов).
  • $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.

Disallow: /category/$ # закрываем только страницу категорий Disallow: /category/* # закрываем все страницы в папке категории

Sitemap

Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.

Пример:

Sitemap: http://site.ru/sitemap.xml

Директива host уже устарела, поэтому о ней говорить не будем. 

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:

Crawl-delay: 10

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы. 

Пример:

Clean-Param: utm_source&utm_medium&utm_campaign

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:

User-agent: * Disallow: /

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.

Переходим в инструмент, вводим домен и содержимое вашего файла.

Robots.txt - как создать и настроить его правильно для сайта?

Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

Robots.txt - как создать и настроить его правильно для сайта?

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Robots.txt - как создать и настроить его правильно для сайта?

Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется. 

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами. 

User-agent: * Disallow: /cgi-bin # папка на хостинге Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp- Disallow: /xmlrpc.php # файл WordPress API Disallow: /*? # поиск Disallow: /?s= # поиск Allow: /*.css # стили Allow: /*.js # скрипты Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)

Читайте также:  Как заработать на востребованных услугах?

Правильный robots.txt для Joomla

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Sitemap: https://site.ru/sitemap.xml

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.

Как создать правильный файл robots.txt, настройка, директивы

Robots.txt - как создать и настроить его правильно для сайта?

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.

Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.

txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример:

User-agent: *
Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

ваш_сайт.ru/robots.txt

Для размещения файла в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое в браузере.

Для чего нужен robots.txt

Сформированный файл для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое.

Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними.

Однако, и для небольшого сайта могут быть полезны некоторые директивы, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку это текстовый файл, нужно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.

txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла не должно вызвать проблем даже у новичков.

О том, как составить и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых: скачать в уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить.

Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта.

Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt.

В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями.

Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита

Настройка файла robots.txt (роботс) для сайта: правила и ошибки

Если вы читаете эту статью – у вас проблема в написании правильного robots.txt. Возможно вы знакомы с основами, видели несколько таких инструкцией для поисковых устройств, знаете принцип составления или же вовсе имеете богатый опыт составления этого файла. Прочитать статью будет полезно и интересно всем.

Сегодня мы рассмотрим правила, ошибки и “хороший тон” составления правильного robots, а так же его коррекцию при использовании популярных CMS. Речь не пойдет об основах. Все элементарные правила создания и корректировки роботс должен знать каждый.

А если вы не знаете их, то вам прямая дорога сначала в Помощь Яндекса, где подробно прочитаете как создать robots.txt. 

Так же, если вы ищите как настроить файл robots.txt для переезда с HTTP на HTTPS, то вам сюда – Настройка SSL сертификата

Итак, поехали!

Роботов можно разделить на два отряда: “пауки” и “дятлы”.

Пауки ходят по ссылкам сайта, по его структуре, всё глубже и глубже собирая все данные о содержимом сайта. Дятлы же простукивают страницы сайта, проверяя, работают ли эти страницы, видят ли их пользователи, не отдает ли страница 404-ю ошибку.

  Речь в статье пойдет о роботе-пауке, который проходя по внутренним ссылкам руководствуется правилами и запретами прописанными в файле robots.txt. Robots.txt - как создать и настроить его правильно для сайта?

Ниже я опишу банальные ошибки настройки robots.txt которые сам видел и расскажу как их можно избежать.

  • Ошибки составления robots.txt для сайта, которые мы встречали
  • Перепутанные инструкции
  • Я имел честь видел на своем опыте много файлов роботс, но бывали и совсем фантастические и невозможные. К примеру:
  • User-agent: /  Disallow: Yandex 
  • Всем же, надеюсь, известно что правильно писать так:
  • User-agent: Yandex  Disallow: / 
  • Указание нескольких правил в одной инструкции
  • Так же мне улыбнулась удача увидеть в своей жизни данное безобразие:
  • Disallow: /wp-admin/ /wp-includes/ /wp-feed/ 

В таком случае не понятно как поведет себя тот или иной робот поисковой системы. Один может воспринять данное правило вместе – Disallow: /wp-admin/wp-includes/wp-feed/ , другой взять первое правило (/wp-admin/) или последнее (/wp-feed/), а какой то вовсе не воспримет данную строку. Поэтому не рискуем и пишем правила построчно, в отдельных инструкциях:

  1. Disallow: /wp-admin/  Disallow: /wp-includes/
  2.  Disallow: /wp-feed/
  3. Ошибки в названии файла

Так же на моем веку встречались и совсем экзотичные случаи. Захотел я посмотреть роботс сайта, ввел в строку http://сайт.ru/robots.txt, а мне в ответ кукиш! “Наверное нет файла” – подумал я. Но когда залез в структуру сайта был шокирован! Встречались разные варианты написания:

  • Robots.txt (с заглавной буквы);
  • robot.txt (без s);
  • ROBOTS.TXT (!КАПСОМ!).

Правильно писать естественно “robots.txt”.

  • Пустое значение в User-agent
  • Очень часто на недоработанных сайтах встречалась следующая конструкция:
  • User-agent:  Disallow: 

Для кого она? Не понятно. Единственное из этого понятно, что данный посыл не дошел ни до одного робота. Правильно вписывать имя робота, для кого назначены ниже перечисленные инструкции:

Правильная настройка robots.txt: подробное руководство

Если вы хотите, чтобы поисковые системы проиндексировали целевые страницы вашего сайта и не затронули технические, необходимо создать правильный robots.txt. Для начала давайте разберемся, что такое индексация. Это процесс, когда «проверенные» роботами Яндекса и Гугла страницы заносятся в базу поисковых систем. Такой проиндексированный сайт можно найти в сети по запросу.

Для чего нужен роботс? Файл указывает поисковым роботам и краулерам, какие страницы разрешаются к просмотру и индексации, а какие нет. Это ключевой момент, так как позволяет закрыть страницы с нерелевантным контентом. Например, календарь и другие технические материалы, не подлежащие публикации.

Зачем морочиться и закрывать часть материалов на сайте? Поисковые системы выделяют на каждый ресурс в сети краулинговый бюджет – максимальное количество страниц, которые могут пройти индексацию.

Соответственно, если вы не «Эльдорадо» или «OZON» с раздутым бюджетом на десятки миллионов страниц, то каждая индексация бесполезного материала съедает и без того скромный бюджет.

Читайте также:  Как вести блог в телеграмме и где искать авторский контент

Чтобы показывать только самый «смак» и полезный целевой контент используют опции запрета индексации.

Подытожим для чего нужен этот файл:

  • Запретить индексацию разделов и страниц, которые не содержат полезный материал;
  • Разрешить просмотр и добавление в базу ПС целевых материалов сайта;
  • Разграничить права доступа между поисковиками. Например, Яндексу открыть одни страницы для индексации, а Гуглу – другие;
  • Показать роботам директиву host – главное зеркало ресурса;
  • Выставить запрет на парсинг информации с сайта сторонними парсерами.

Стандарт robots.txt приняли в 1994 году, но до сих пор он актуален при настройке сайтов. Чтобы решить 80% задач с индексацией ресурсов достаточно правильно настроить роботс.

Как создать?

Чтобы сделать robots.txt достаточно просто уметь создавать текстовые файлы, например, с помощью стандартного блокнота Windows.

Далее наполняете его содержимым и через FTP-соединение загружаете в корневую директорию вашего сайта. Нельзя прятать файл во вложения – папки, категории и прочее. Всё.

При следующей индексации поисковой робот обратится к этому документу, чтобы получить инструкции по работе с ресурсом.

Другой вопрос, что в роботс записать. Существует два варианта, как настроить файл robots.txt – для ленивых и тех, кто любит понимать, как все устроено.

В первом случае можно использовать онлайн-генераторы, которые сами пропишут стандартный для многих сайтов код.

Однако этот вариант плох тем, что весь «мусор» исключить из поиска шаблонными приемами не получится. В любом случае придется править файл ручками.

Второй вариант несколько сложнее, но не настолько, чтобы отчаяться в своих способностях программиста. Правильная настройка robots.txt начинается с изучения довольно простого и лаконичного синтаксиса. Мы рассмотрим далее, как составить файл с нуля или отредактировать готовую версию и «не нарубить дров».

Правила настройки

Правильная настройка robots.txt заключается в построении структуры документа с использованием основных разделов и директив. Рассмотрим подробнее:

Гайд по robots.txt: создаём, настраиваем, проверяем

В этой статье мы рассмотрим:

Что такое robots.txt?

Robots.txt — это текстовый файл, который содержит в себе рекомендации для действий поисковых роботов. В этом файле находятся инструкции (директивы), с помощью которых можно ограничить доступ поисковых роботов к определённым папкам, страницам и файлам, задать скорость сканирования сайта, указать главное зеркало или адрес карты сайта.

Обход сайта поисковыми роботами начинается с поиска файла роботс. Отсутствие файла не является критической ошибкой. В таком случае роботы считают, что ограничений для них нет и они полностью могут сканировать сайт.
Файл должен быть размещён в корневом каталоге сайта и быть доступен по адресу https://mysite.com/robots.txt.

Инструкции стандарта исключения для роботов носят рекомендательный характер, а не являются прямыми командами для роботов. То есть существует вероятность, что даже закрыв страницу в robots.txt, она всё равно попадёт в индекс.

Указывать директивы в файле нужно только латиницей, использовать кириллицу запрещено. Русские доменные имена можно преобразовать с помощью кодировки Punycode.

Что нужно закрыть от индексации в robots.txt?

  • страницы с личной информацией пользователей;
  • корзину и сравнение товаров;
  • переписку пользователей;
  • административную часть сайта;
  • скрипты.

Как создать robots.txt?

Составить файл можно в любом текстовом редакторе (блокнот, TextEdit и др.). Можно создать файл robots.txt для сайта онлайн, воспользовавшись генератором файла, например, инструментом сервиса Seolib.

Нужен ли robots.txt?

Прописав правильные инструкции, боты не будут тратить краулинговый бюджет (количество URL, которое может обойти поисковый робот за один обход) на сканирование бесполезных страниц, а проиндексируют только нужные для поиска страницы. В дополнение, не будет перегружаться работа сервера.

Директивы robots.txt

Файл роботс состоит из основных директив: User-agent и Disallow и дополнительных: Allow, Sitemap, Host, Crawl-delay, Clean-param. Ниже мы разберём все правила, для чего они нужны и как их правильно прописать.

User-agent — приветствие с роботом

Как правильно составить и настроить файл robots txt для сайта

Правильное составление и настройка файла robots txt для сайта – это сокровенные знания веб-мастера. Без них боты поисковых систем начнут вести работы по своему усмотрению. А это не самые умные машины, и чтобы индексация была действительно качественной и грамотной, их приходится водить чуть ли не за ручку. 

Поэтому в этом обзоре мы разберемся в этой проблеме детально. Узнаем все особенности создания этого документа, а также разберемся с его значением. Ведь многие ошибочно полагают, что практической пользы от него почти нет. И игнорируют рекомендации по его наличию. И это становится серьезной ошибкой, снижающий и позиции в поисковике, и входящий трафик. 

Если seo-специалисты провели аудит вашего интернет-ресурса и уже выставили на вас задачи по исправлению технических ошибок, внедрению новой структуры контента и изменению структуры сайта, но вы не знаете с какой стороны к ним подойти и у вас некому эти задачи реализовывать, вы можете обратиться к специалистам “Студии 17”. Мы занимаемся не только разработкой, но и оказываем качественную техническую поддержку.

Что же это такое 

Один из самых частых вопросов – как создать файл robots txt для HTML сайта. И это крайне забавно, ведь по сути такому типу ресурсов подобный документ и не нужен.

Это практически единственное исключение. Небольшие ресурсы без динамических страниц – это системы, которые и не могут содержать множество вкладок с информацией.

Если робот поисковика пройдется по всем, вряд ли случится что-то страшное.

Смысл метода в принципе ограничения исследований ботов, чтобы направить их силы в нужное русло. Тут у вас просто нерелевантная техническая информация, индексация не нужна. Закрываем доступ. А вот здесь скрывается новый контент с уникальными текстами, строго оптимизированный под тематику ресурса. Как раз сюда и нужно направить силы поисковиков. Общий смысл понятен. 

Есть и иной аспект с не меньшей важностью. Почти каждому сайту с дублированным контентом нужен правильный файл роботс тхт (txt), настройка его позволяет исключить проверку таких участков.

Вы, например, просто показываете пользователям текстовые части с иных ресурсов, описываете общие понятия, вставляете вырезки из авторитетных источников. И все это снижает уникальность. А за такое можно и санкции от поисковых систем получить.

Вот тут и понадобится запрет на исследование. 

Поэтому не стоит недооценивать его значения. В современных реалиях почти нет веб-ресурсов, которые могут обойтись без этого маленького помощника. Тем более, обзавестись им можно в считаные минуты. Главное понимать, как именно решить задачу.

Как создать 

Прежде всего, начнем с основ. Для того чтобы понять, как написать, сделать файл robots txt для сайта, что должно быть в нем, достаточно уяснить, что это текстовый документ. Обычный и тривиальный. Открыли блокнот, сохранили под соответствующим именем – все, задача выполнена. Правда, неправильно. Ни команд, ни директив там не будет. Но теоретически документ создан. 

Всего-то нам и нужно вооружиться блокнотом и поместить результат в правильное место. А конкретно, в корневой каталог. То есть, наш сайт/наш документ. 

Есть и аналогичные методики. Просто скачать необходимый вариант из сети. Или даже сгенерировать его. Сейчас различные онлайн-сервисы предоставляет возможности по автоматическому созданию. Но тут тоже могут быть свои палки в колесах.

  • Сервис может работать в принципе неправильно. И такое случается. 
  • Полученный вариант будет не персонализированным. Не заточен под конкретные аспекты вашего ресурса. Его все равно придется дорабатывать и переделывать. Если у вас не супертиповой сайт, разумеется. Что в реальности не случается. Даже клонированные блоги на WordPress имеют массу отличий.
  • В этом нет особого смысла, ведь подобный процесс без проблем можно провести своими собственными силами. 

Настройка 

Правильный файл robots txt что это такое – текстовый документ, который следует корректному синтаксису и обеспечивает изоляцию всех внутренних страниц, где роботом нет смысла тратить время или даже вредно находиться. 

В какой-то мере – это инструкция для ботов. Они ей следуют. Не будем оставлять их без присмотра.

Вот подобный маневр значительно увеличивает поисковую позицию, а также повышает внутренний рейтинг площадки в глазах поисковиков.

Простейший метод оптимизации, достигаемый не вливанием массивных денежных пластов, не покупкой профессиональных услуг, а всего лишь небольшой редактурой на пару минут. Вариант звучит выгодно. 

Структура 

Важнейшие команды – это User-agent и robots txt disallow. Первая сообщает, какой конкретно поисковый робот должен следовать указаниям. А вторая говорит, куда ходить не следует. 

  • Структура становится примерно следующей.
  • User-agent: Yandex
  • Disallow: /PPP – произвольное название нашей страницы. 
  • Disallow: /admin – закрытая для исследований админка. 

Такую же манипуляцию можно провести с Гуглом. Только сменится агент. 

Читайте также:  Сочетание и значение цветов в логотипе

Инструкция по работе с файлом robots.txt

На любом сайте есть не только контент для пользователей, но и различные системные файлы. Когда поисковый робот начинает сканировать сайт, для него нет разницы, системный перед ним файл или нет — он просканирует все.

Но на посещение сайта у робота отведено ограниченное количество времени, поэтому важно, чтобы он проиндексировал именно те страницы, которые должны быть в поиске. Иначе робот посчитает сайт бесполезным и понизит его в поисковой выдаче.

Именно поэтому обязательно нужно создавать файл robots.txt.

Файл robots.txt – это текстовый файл, который размещается в корневой папке сайта и содержит инструкции по индексации страниц для роботов поисковых систем. В нем есть своя структура, директивы, и в целом он в некотором роде выполняет функцию «фильтра». Говоря проще, именно при помощи robots.

txt мы указываем, какие страницы сайта робот должен сканировать, а какие – нет. robots.txt является важным и нужным инструментом взаимодействия с поисковыми роботами и один из важнейших инструментов SEO.

Он нужен в случае, когда вы хотите, чтобы индексация сайта проходила максимально качественно, то есть чтобы в поиск попали действительно полезные страницы.

Когда робот заходит на сайт, то в первую очередь он ищет именно этот файл. При этом поисковики в любом случае проиндексируют сайт — независимо от того, есть ли на нем robots.txt или нет. Просто если он есть, то роботы будут следовать правилам, прописанным в нем. А если он есть, но при этом неправильно настроен, то сайт и вовсе может выпасть из поиска или просто не будет проиндексирован.

При работе с файлом robots.txt важно понимать отличия между терминами «директива» и «директория»:

Директория — это папка, в которой находятся файлы вашей системы управления.

Директива — это список команд, инструкции в robots.txt для одного или нескольких поисковых роботов при помощи которых производится управление индексацией сайта.

Чтобы самостоятельно создать файл robots.txt не потребуется никаких дополнительных программ. Достаточно будет любого текстового редактора, например, стандартного Блокнота.

Чтобы создать robots.txt просто сохраните файл под таким именем и с расширением .txt., и уже после этого вносите в него все необходимые инструкции в зависимости от стоящих перед вами задач.

Файл нужно разместить в корневой папке, то есть в той, которая называется так же, как и ваш движок и содержит в себе индексный файл index.html и файлы системы управления, на базе которой и сделан сайт.

Чтобы загрузить в эту папку файл robots.txt можно использовать панель управления сервером, админку в CMS, Total Commander или другие способы.

На некоторых движках уже есть встроенная функция, которая позволяет создать robots.txt. Если у вас ее нет, то можно использовать специальные модули или плагины. Но в целом, нет никакой разницы, каким именно способом вы создадите robots.txt.

В случае, когда у вас не один, а несколько сайтов, и создание файлов robots.txt будет занимать долгое время, можно воспользоваться онлайн-сервисами, которые генерируют robots.txt. автоматически. Но учтите, что такие файлы могут требовать ручной корректировки, поэтому все равно нужно понимать правила их составления и знать особенности синтаксиса.

В интернете также можно найти и готовые шаблоны robots.txt для разных CMS, но в них добавлены лишь стандартные директивы, а значит и эти файлы потребуют корректировки.

Очень важно грамотно работать с файлом robots.txt, иначе можно собственноручно отправить на индексацию документы, которые индексировать не планировалось.

Внимание следует уделить следующим моментам:

  • наличие файла robots.txt на сайте;
  • в правильном ли месте он расположен;
  • грамотно ли он составлен;
  • насколько он работоспособен, т.е. доступны ли указанные в нем документы для индексации.

Файл robots.txt должен располагаться исключительно в корневой папке сайта, т.е. он должен быть доступен по адресу site.ru/robots.txt.

Не допускается наличие вложений, например, site.ru/page/robots.txt. Если файл robots.txt располагается не в корне сайта (и у него другой URL), то роботы поисковых систем его не увидят и будут индексировать все страницы сайта.

При этом важно помнить, что файл robots.txt привязан к адресу домена вплоть до протокола. То есть для http и https требуется 2 разных robots.txt, даже если затем адреса совпадают.

Также один и тот же файл нельзя использовать для субдоменов (хостов) и других портов. Получается, что один robots.

txt действителен для всех файлов во всех подкаталогах, которые относятся к одному хосту, протоколу и номеру порта.

Насколько грамотно составлен ваш robots.txt можно оценить, проанализировав его по следующим пунктам:

  1. Файл должен быть один для каждого сайта и называться он должен robots.txt. Заглавные буквы в названии не используются.
  2. Запрещено использовать кириллицу в директориях robots.txt. Чтобы указывать названия кириллических доменов, нужно использовать Punycode для их преображения. Адреса сайтов также указывают в кодировке UTF-8, включающей коды символов ASCII. Например:

    Неверно:

    User-agent: Yandex Disallow: /корзина /

    Sitemap: сайт123.рф/sitemap.xml

    Верно:

    User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

    Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

  3. Инструкции пишутся отдельно для каждого робота, т.е. в директиве User Agent не допускается никаких перечислений. Если хотите назначить правила для всех роботов, то необходимо использовать User-agent: *. В файле robots.txt знак «*» — это любое число любых символов.
  4. Каждая директива должна начинаться с новой строки.
  5. 1 директива = 1 параметр, т.е. например, Disallow: /admin, и никаких Disallow: /admin /manage и т.д. в одной строчке.
  6. В начало строки не ставится пробел.
  7. Параметр директивы должен быть прописан в одну строку.
  8. Для указания директории применяется слэш.
  9. Параметры директивы не нужно добавлять в кавычки, также они не требуют закрывающих точки с запятой.

Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка

В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данного документа
  2. Follow — может ли он следовать по ссылкам, найденным в этом документе

Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Более подробные объяснения можно найти, например, в хелпе Яндекса:

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=”robots”.

Как создать правильный роботс.тхт?

Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента).

Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться.

Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

Но это я отвлекся…

Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место

Ссылка на основную публикацию