Использование файла robots.txt – Вебмастер. Помощь
Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Также рекомендуем просмотреть урок Как управлять индексированием сайта.
- В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами.
- Проверьте файл в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
- Загрузите файл в корневую директорию вашего сайта.
Робот Яндекса поддерживает стандарт исключений для роботов с расширенными возможностями, которые описаны ниже.
В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует загрузить робот.
Сессия начинается с загрузки файла robots.txt. Если файл отсутствует, не является текстовым или на запрос робота возвращается HTTP-статус отличный от 200 OK, робот считает, что доступ к документам не ограничен.
В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.
Следующим роботам Яндекса можно указать отдельные директивы:
Если обнаружены директивы для конкретного робота, директивы User-agent: Yandex и User-agent: * не используются.
Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id= User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Disallow
Allow
Совместное использование директив
Директивы Allow и Disallow без параметров
DisallowИспользуйте эту директиву, чтобы запретить индексирование разделов сайта или отдельных страниц. Например:
- страницы с конфиденциальными данными;
- страницы с результатами поиска по сайту;
- статистика посещаемости сайта;
- дубликаты страниц;
- разнообразные логи;
- сервисные страницы баз данных.
Примеры:
User-agent: Yandex
Disallow: / # запрещает обход всего сайта User-agent: Yandex
Disallow: /catalogue # запрещает обход страниц, адрес которых начинается с /catalogue User-agent: Yandex
Disallow: /page? # запрещает обход страниц, URL которых содержит параметры
В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
Allow
Директива разрешает индексирование разделов или отдельных страниц сайта.
Примеры:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц # начинающихся с '/cgi-bin'Примечание. Недопустимо наличие пустых переводов строки между директивами User-agent, Disallow и Allow.Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно.
Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.
txt не влияет на использование их роботом. Примеры:
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.Директивы Allow и Disallow без параметров
Если директивы не содержат параметры, учитывает данные следующим образом:
User-agent: Yandex
Disallow: # то же, что и Allow: / User-agent: Yandex
Allow: # не учитывается роботом
При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, задавая, таким образом, определенные регулярные выражения. Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' # и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', # но и '/cgi-bin/private'
По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам # начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example', # но не запрещает '/example.html'User-agent: Yandex
Disallow: /example # запрещает и '/example', # и '/example.html'Спецсимвол $ не запрещает указанный * на конце, то есть:User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' # запрещает и /example.html и /example
Если вы используете описание структуры сайта с помощью файла Sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все). Пример:
User-agent: Yandex
Allow: /
sitemap: https://example.com/site_structure/my_sitemaps1.xml
sitemap: https://example.com/site_structure/my_sitemaps2.xml
Директива является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.
Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.
Если сервер сильно нагружен и не успевает отрабатывать запросы робота, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
Перед тем, как изменить скорость обхода сайта, выясните к каким именно страницам робот обращается чаще.
- Проанализируйте логи сервера. Обратитесь к сотруднику, ответственному за сайт, или к хостинг-провайдеру.
- Посмотрите список URL на странице в Яндекс.Вебмастере (установите переключатель в положение Все страницы).
Если вы обнаружите, что робот обращается к служебным страницам, запретите их индексирование в файле robots.txt с помощью директивы Disallow. Это поможет снизить количество лишних обращений робота.
В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Crawl-delay необходимо добавить в группу, которая начинается с записи User-agent (непосредственно после директив Disallow и Allow).
Поисковый робот Яндекса поддерживает дробные значения Crawl-delay, например, 0.1. Это не гарантирует, что поисковый робот будет заходить на ваш сайт 10 раз в секунду, но позволяет ускорить обход сайта.
Эти указания не учитываются роботом, который обходит RSS-канал для формирования Турбо-страниц.
Примечание. В директиве для Яндекса максимально допустимым значением является 2.0. Вы можете задать нужную скорость, с которой робот будет загружать страницы сайта в разделе Скорость обхода сайта Яндекс.Вебмастера.
Примеры:
User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды User-agent: *
Disallow: /search
Crawl-delay: 1.5 # задает тайм-аут в 1.5 секунды
Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.
Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, на сайте есть страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:
User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl
робот Яндекса сведет все адреса страницы к одному:
www.example.com/some_dir/get_book.pl?book_id=123
Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.
Clean-param: p0[&p1&p2&..&pn] [path]
В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.
Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.
Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом символ * трактуется так же, как в файле robots.
txt: в конец префикса всегда неявно дописывается символ *. Например:
Clean-param: s /forum/showthread.php
означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта.
Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:
Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forum/*.php
Clean-param: someTrash&otherTrash#для адресов вида:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php#для адресов вида:
www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df
www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae #robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php#если таких параметров несколько:
www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311
www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s&ref /forum*/showthread.php#если параметр используется в нескольких скриптах:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/index.php
Clean-param: s /forum/showthread.php
Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.
Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.
Пример файла robots.txt:
#Неверно:
User-agent: Yandex
Disallow: /корзина #Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Робот Яндекса не поддерживает директивы файла robots.txt, которые не указаны на этой странице. Изложенные выше правила обработки файла в совокупности являются расширением обычного стандарта, и другие роботы могут иначе интерпретировать содержимое robots.txt.
Результат использования расширений формата robots.txt может отличаться от результата без них, а именно:
User-agent: Yandex Allow: /
Disallow: /
# без расширений все запрещалось так как 'Allow: /' игнорировалось, # с поддержкой расширений все разрешается User-agent: Yandex
Disallow: /private*html
# без расширений запрещалось '/private*html', # а с поддержкой расширений и '/private*html', # и '/private/test.html', и '/private/html/test.aspx' и т. п. User-agent: Yandex
Disallow: /private$
# без расширений запрещалось '/private$' и '/private$test' и т. п., # а с поддержкой расширений только '/private' User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# без расширений из-за отсутствия перевода строки, # 'User-agent: Yandex' было бы проигнорировано и # результатом стало бы 'Disallow: /', но робот Яндекса # выделяет записи по наличию в строке 'User-agent:', # результат для робота Яндекса в данном случае 'Allow: /' User-agent: *
Disallow: /
# комментарий1…
# комментарий2…
# комментарий3…
User-agent: Yandex
Allow: /
# аналогично предыдущему примеру (см. выше)
Примеры использования расширенного формата robots.txt:
User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает html файлы # по пути '/obsolete/private/…'
Disallow: /*.php$ # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие # '/private/', но Allow выше отменяет # часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие # в пути '/old/' User-agent: Yandex
Disallow: /add.php?*user= # запрещает все скрипты 'add.php?' с параметром 'user'
При формировании файла robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Если размер файла превышает 32 Кб, робот считает его полностью разрешающим, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow:
Также разрешающим считается robots.txt, который не удалось загрузить (например, не правильно настроены HTTP-заголовки или возвращается HTTP-статус 404 Not found).
Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не следовать ограничивающим директивам файла robots.txt, предназначенным для произвольных роботов (User-agent: *).
Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.
Внимание. Если такой робот скачивает документ, не доступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.
Список роботов Яндекса, не следующих общим запрещающим правилам в robots.txt:
- 'YandexAccessibilityBot' скачивает страницы для проверки их доступности пользователям.
- 'YandexCalendar' регулярно скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах.
- 'YandexDirect' скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы.
- 'YandexDirectDyn' — робот генерации динамических баннеров.
- 'YaDirectFetcher' скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики, что необходимо для их размещения в поисковой выдаче и на сайтах-партнерах. При обходе сайта робот не использует файл robots.txt, поэтому игнорирует директивы, установленные для него.
- 'YandexMedianaBot' — робот сервиса Яндекс.Медиана.
- 'YandexMetrika' — робот Яндекс.Метрики.
- 'YandexMobileBot' скачивает документы для последующего их анализа на наличие верстки, подходящей под мобильные устройства.
- 'YandexOntoDBAPI' — робот объектного ответа, скачивающий динамические данные.
- 'YandexSearchShop'регулярно скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах.
- 'YandexScreenshotBot' делает снимок страницы.
- 'YandexTurbo' — робот обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay.
- 'YandexVideoParser' — индексатор Яндекс.Видео.
Если вас не устраивает данное поведение, можно ограничить им доступ к своему сайту или его части с помощью директив специально для них, например:
User-agent: YandexCalendar
Disallow: /User-agent: YandexMobileBot
Disallow: /private/*.txt$
Была ли статья полезна?
Источник: https://yandex.ru/support/webmaster/controlling-robot
Особенности индексации сайтов – robots.txt, мета-тег robots и внутренние ссылки
), то можно обойтись без запрещающих директив в файле robots.txt, но разместив на страницах метатег robots. Данный вариант, как вы понимаете, является эффективным и предпочтительным.
Рекомендую к прочтению:
Итак, у нас остался последний нераскрытый вопрос, и он о внутренних ссылках.
Влияние внутренних ссылок на индексацию сайта
Внутренние ссылки являются основной и практически единственной причиной того, что нам приходится закрывать ненужные и попавшие в индекс страницы разными метатегами и директивами robots.txt. Однако реальность такова, что ненужные роботам страницы очень даже нужны пользователям сайта, а следовательно должны быть и ссылки на эти самые страницы.
А что же делать? При любом варианте запрета индексации ссылок (rel=”nofollow”) и страниц (robots.txt, meta robots), вес сайта просто теряется, утекает на закрытые страницы.
Вариант №1. Большинство распространенных CMS имеют возможность использования специальных тегов (в DLE точно это есть, я сам этим очень активно пользуюсь) при создании шаблонов оформления, которые позволяют регулировать вывод определенной информации.
Например, показывать какой-либо текст только гостям или группе пользователей с определенным id и т.д.
Если таких тегов вдруг нет, то наверняка на помощь придут логические конструкции (такие конструкции есть в WordPress, а так же форумных движках IPB и vbulletin, опять же, я сам пользуюсь этими возможностями), представляющие из себя простейшие условные алгоритмы на php.
Так вот, логично было бы скрывать неважные и ненужные ссылки от гостей (обычно эту роль играют и роботы при посещении любого сайта), а так же скрывать ссылки на страницы, которые выдают сообщение о том, что вы не зарегистрированы, не имеете прав доступа и все такое. При необходимости можно специально для гостей выводить блок с информацией о том, что после регистрации у них появится больше прав и возможностей, а значит и соответствующие ссылки появятся 😉
Но бывают такие моменты, что ссылку нельзя скрыть или удалить, потому что она нужна, и нужна сразу всем – гостям, пользователям… А вот роботам не нужна. Что делать?
Вариант №2. В редких случаях (хотя последнее время все чаще и чаще) бывает необходимо, чтобы ссылки или даже целые блоки сайта были недоступны и невидны роботам, а вот людям отображались и работали в полной мере, вне зависимости от групп и привилегий.
Вы уже, наверное, догадались, что я говорю про сокрытие контента при помощи JavaScript или AJAX. Как это делается технически, я не буду расписывать, это очень долго. Но есть замечательный пост Димы Dimox’а о том, как загрузить часть контента с помощью AJAX на примере WordPress (линк).
В примере рассказывается про подгрузку целого сайдбара, но таким же методом можно подгрузить одну только ссылку, например. В общем, немного покопаетесь и разберетесь.
Так вот, если хочется какую-то часть контента роботам не показывать, то лучший выбор – JavaScript.
А после того как провернете всю техническую часть, проверить это на работоспособность поможет замечательный плагин для FireFox под названием QuickJava.
Просто с помощью плагина отключите для браузера обработку яваскрипта и перезагрузите страницу, весь динамически подгружаемый контент должен пропасть 😉
Но помните, что тут тоже надо знать меру!
И, кстати, еще парочка интересных моментов, которые необходимо знать:
Яндексу в индексации сайтов помогает Яндекс.Метрика, которая автоматически пингует в индекс все посещенные страницы, на которых установлен код Метрики. Но эту функцию можно отключить при получении кода счетчика, установив соответсвующую галочку.
Возможно как то в индексации замешаны Яндекс.Бар и сборка браузера Хром от Яндекса, но в этом я не уверен.
Источник: http://Alaev.info/blog/post/3013
Настройка файла robots.txt (роботс) для сайта: правила и ошибки
Если вы читаете эту статью – у вас проблема в написании правильного robots.txt. Возможно вы знакомы с основами, видели несколько таких инструкцией для поисковых устройств, знаете принцип составления или же вовсе имеете богатый опыт составления этого файла. Прочитать статью будет полезно и интересно всем.
Сегодня мы рассмотрим правила, ошибки и “хороший тон” составления правильного robots, а так же его коррекцию при использовании популярных CMS. Речь не пойдет об основах. Все элементарные правила создания и корректировки роботс должен знать каждый.
А если вы не знаете их, то вам прямая дорога сначала в Помощь Яндекса, где подробно прочитаете как создать robots.txt.
Так же, если вы ищите как настроить файл robots.txt для переезда с HTTP на HTTPS, то вам сюда – Настройка SSL сертификата
Итак, поехали!
Роботов можно разделить на два отряда: “пауки” и “дятлы”.
Пауки ходят по ссылкам сайта, по его структуре, всё глубже и глубже собирая все данные о содержимом сайта. Дятлы же простукивают страницы сайта, проверяя, работают ли эти страницы, видят ли их пользователи, не отдает ли страница 404-ю ошибку.
Речь в статье пойдет о роботе-пауке, который проходя по внутренним ссылкам руководствуется правилами и запретами прописанными в файле robots.txt.
Ниже я опишу банальные ошибки настройки robots.
txt которые сам видел и расскажу как их можно избежать.
Ошибки составления robots.txt для сайта, которые мы встречали
Перепутанные инструкции
Я имел честь видел на своем опыте много файлов роботс, но бывали и совсем фантастические и невозможные. К примеру:
User-agent: /
Disallow: Yandex
Всем же, надеюсь, известно что правильно писать так:
User-agent: Yandex
Disallow: /
Указание нескольких правил в одной инструкции
Так же мне улыбнулась удача увидеть в своей жизни данное безобразие:
Disallow: /wp-admin/ /wp-includes/ /wp-feed/
В таком случае не понятно как поведет себя тот или иной робот поисковой системы. Один может воспринять данное правило вместе – Disallow: /wp-admin/wp-includes/wp-feed/ , другой взять первое правило (/wp-admin/) или последнее (/wp-feed/), а какой то вовсе не воспримет данную строку. Поэтому не рискуем и пишем правила построчно, в отдельных инструкциях:
Disallow: /wp-admin/ Disallow: /wp-includes/
Disallow: /wp-feed/
Ошибки в названии файла
Так же на моем веку встречались и совсем экзотичные случаи. Захотел я посмотреть роботс сайта, ввел в строку http://сайт.ru/robots.txt, а мне в ответ кукиш! “Наверное нет файла” – подумал я. Но когда залез в структуру сайта был шокирован! Встречались разные варианты написания:
- Robots.txt (с заглавной буквы);
- robot.txt (без s);
- ROBOTS.TXT (!КАПСОМ!).
Правильно писать естественно “robots.txt”.
Пустое значение в User-agent
Очень часто на недоработанных сайтах встречалась следующая конструкция:
User-agent:
Disallow:
Для кого она? Не понятно. Единственное из этого понятно, что данный посыл не дошел ни до одного робота. Правильно вписывать имя робота, для кого назначены ниже перечисленные инструкции:
Источник: https://studiof1.ru/blog/audit/nastroyka-pravilnogo-fayla-robotstxt/
Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка
<\p>
…
В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).
Существуют только две пары параметров у метатега robots: [no]index и [no]follow:
Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.
Более подробные объяснения можно найти, например, в хелпе Яндекса:
Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».
Как создать правильный роботс.тхт?
Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.
Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента).
Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться.
Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.
Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).
Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.
Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы http://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на http://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.
Но это я отвлекся…
Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место
Источник: http://seocub.ru/prodvizhenie-v-internete/fail-robots-txt-i-meta-teg-robots-nastroika-indeksacii-saita-iandeksom-i-gyglom-pravilnyi-robots-i-ego-proverka.html
Знакомство с robots.txt
Что такое файл robots.txt
Я не буду изображать эксперта, мучая вас терминами. просто поделюсь своим, довольно простым, пониманием функций этого файла:
А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд.
И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу.
И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.
Хотя есть примеры сайтов, у которых робоста нет вообще, но они занимают приличные позиции в поисковой выдаче, но это конечно исключение, а не правило.
Из чего состоит файл robots.txt
И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.
В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:
User-agent: Yandex
Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:
User-Agent: * — это все, любые, роботы
Далее мы записываем все, что хотим сообщить указанному роботу.
Disallow: и далее то, что запрещаем
Allow: и далее все, что разрешаем
Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.
Вот примеры запрещения индексировать:
Disallow: /cgi-bin* — файлы скриптов;
Disallow: /wp-admin* — административную консоль;
Disallow: /wp-includes* — служебные папки;
Disallow: /wp-content/plugins* — служебные папки;
Disallow: /wp-content/cache* — служебные папки;
Disallow: /wp-content/themes* — служебные папки;
Disallow: /feed* — ленту рассылки;
Disallow: */feed
Disallow: /comments* — комментарии;
Disallow: */comments
Disallow: /*/?replytocom=* — ответы на комментарии
Disallow: /tag/* — метки
Disallow: /archive/* — архивы
Disallow: /category/* — рубрики
Как создать собственный файл robots.txt
Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.
Я тоже поступал подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.
txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки.
Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.
Теперь посмотрим, как проверить корректность и эффективность нашего файла robots.txt.
Проверка файла robots.txt в Яндексе
Яндекс-вебмастер позволяет нам узнать отношение поискового робота этой системы к нашему творению. Для этого, очевидно, нужно открыть сведения, относящиеся к блогу и:
- перейти по вкладке Инструменты-> Анализ robots.txt
- нажмите кнопку «загрузить» и будем надеяться, что разместили файл robots.txt там, где нужно и робот его найдет:) (если не найдет — проверьте, где находится ваш файл: он должен быть в корне блога, там, где лежат папки wp-admin, wp-includes и т.д., а ниже отдельные файлы — среди них должен быть robots.txt)
- кликаем на «проверить».
Но самая важная информация находится в соседней вкладке — «Используемые секции»! Ведь, собственно, нам важно, чтобы робот понимал основную часть информации — а все остальное пусть пропускает:
На примере мы видим, что Яндекс понимает все, что касается его робота (строки с 1 по 15 и 32) — вот и прекрасно!
Проверка файла robots.txt в Гугле
У Гугл, тоже, есть инструмент проверки, который покажет нам, как эта поисковая система видит (или не видит) наш robots.txt:
- В инструментах для вебмастеров от Гугл (где ваш блог тоже обязательно должен быть зарегистрирован) есть свой сервис для проверки файла robots.txt. Он находится во вкладке Сканирование
- Найдя файл, система показывает анализирует его и выдает информацию об ошибках. Все просто.
На что стоит обратить внимание, анализируя файл robots.txt
Мы недаром рассмотрели инструменты анализа от двух, наиболее важных поисковых систем — Яндекс и Гугл. Ведь нам нужно убедиться, что каждая из них прочитает рекомендации, данные нами в robots.txt.
В примерах, приведенных здесь, можно увидеть, что Яндекс понимает инструкции, которые мы оставили для его робота и игнорирует все остальные (хотя везде написано одно и то же, только директива User-agent: — различная:)))
Важно понимать, что любые изменения в robots.txt нужно производить непосредственно с тем файлом, который находится у вас в корневой папке блога. То есть, вам нужно открыть его в любом блокноте, чтобы переписать, удалить, добавить какие-либо строки. Потом его нужно сохранить обратно в корень сайта и заново проверить реакцию на изменения поисковых систем.
Понять, что в нем написано, что следует добавить — нетрудно. А заниматься продвижением блога, не настроив файл robots.txt как следует (так, как нужно именно вам!) — усложнять себе задачу.
Источник: https://dramtezi.ru/seo/robots-txt.html