Содержание

Как закрыть сайт от индексации в robots.txt


Поисковые роботы сканируют всю информацию в интернете, но владельцы сайтов могут ограничить или запретить доступ к своему ресурсу. Для этого нужно закрыть сайт от индексации через служебный файл robots.txt. 


Если закрывать сайт полностью не требуется, запрещайте индексацию отдельных страниц. Пользователям не следует видеть в поиске служебные разделы сайта, личные кабинеты, устаревшую информацию из раздела акций или календаря. Дополнительно нужно закрыть от индексации скрипты, всплывающие окна и баннеры, тяжелые файлы. Это поможет уменьшить время индексации и снизит нагрузку на сервер.

Как закрыть сайт полностью 


Обычно ресурс закрывают полностью от индексации во время разработки или редизайна. Также закрывают сайты, на которых веб-мастера учатся или проводят эксперименты. 


Запретить индексацию сайта можно для всех поисковиков, для отдельного робота или запретить для всех, кроме одного. 





Запрет для всех       

User-agent: * 

Disallow: / 

Запрет для отдельного робота  

User-agent: YandexImages 

Disallow: /  

Запрет для всех, кроме одного робота  

User-agent: * 

Disallow: / 

User-agent: Yandex 

Allow: / 

Как закрыть отдельные страницы 


Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Для ресурсов с большим количеством служебной информации закрывайте страницы и целые разделы: 

  • административная панель; 
  • служебные каталоги; 
  • личный кабинет; 
  • формы регистрации; 
  • формы заказа; 
  • сравнение товаров; 
  • избранное; 
  • корзина; 
  • каптча; 
  • всплывающие окна и баннеры;
  • поиск на сайте; 
  • идентификаторы сессий. 


Желательно запрещать индексацию т.н. мусорных страниц. Это старые новости, акции и спецпредложения, события и мероприятия в календаре. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.


Запрет индексации








Отдельной страницы 

User-agent: *

Disallow: /contact.html 

Раздела   

User-agent: *

Disallow: /catalog/   

Всего сайта, кроме одного раздела 

User-agent: *

Disallow: /

Allow: /catalog

Всего раздела, кроме одного подраздела 

User-agent: *

Disallow: /product

Allow: /product/auto 

Поиска на сайте 

User-agent: *

Disallow: /search 

Административной панели 

User-agent: *

Disallow: /admin

Как закрыть другую информацию 


Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. Указывайте запрет для индексации всем роботам или отдельным. 


Запрет индексации








Типа файлов 

User-agent: *

Disallow: /*.jpg 

Папки 

User-agent: *

Disallow: /images/ 

Папку, кроме одного файла 

User-agent: *

Disallow: /images/

Allow: file.jpg 

Скриптов 

User-agent: *

Disallow: /plugins/*.js 

utm-меток 

User-agent: *

Disallow: *utm= 

utm-меток для Яндекса 

Clean-Param: utm_source&utm_medium&utm_campaign 

Как закрыть сайт через мета-теги 


Альтернативой файлу robots.txt является мета-тег robots. Прописывайте его в исходный код сайта в файле index.html. Размещайте в контейнере <head>. Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название. Для Google — Googlebot, для Яндекса — Yandex. Существуют два варианта записи мета-тега. 

Вариант 1.

Вариант 2.  


<meta name=”robots” content=”none”/>


Атрибут “content” имеет следующие значения: 

  • none — индексация запрещена, включая noindex и nofollow; 
  • noindex — запрещена индексация содержимого; 
  • nofollow — запрещена индексация ссылок; 
  • follow — разрешена индексация ссылок; 
  • index — разрешена индексация; 
  • all — разрешена индексация содержимого и ссылок. 

Таким образом, можно запретить индексацию содержимого, но разрешить ссылки. Для этого укажите content=”noindex, follow”. На такой странице ссылки будут индексироваться, а текст — нет. Используйте для разных случаев сочетания значений.  


Если закрыть сайт от индексации через мета-теги, создавать robots.txt отдельно не нужно.

Какие встречаются ошибки 


Логические — когда правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в инструментах Яндекс.Вебмастере и Google Robots Testing Tool. 


Синтаксические — когда неправильно записаны правила в файле. 


К наиболее часто встречаемым относятся: 

  • запись без учета регистра; 
  • запись заглавными буквами; 
  • перечисление всех правил в одной строке; 
  • отсутствие пустой строки между правилами; 
  • указание краулера в директиве; 
  • перечисление множества вместо закрытия целого раздела или папки; 
  • отсутствие обязательной директивы disallow.

Шпаргалка 


  1. Для запрета на индексацию сайта используйте два варианта. Создайте файл robots.txt и укажите запрет через директиву disallow для всех краулеров. Другой вариант — пропишите запрет через мета-тег robots в файле index.html внутри тега . 


  2. Закрывайте служебные информацию, устаревающие данные, скрипты, сессии и utm-метки. Для каждого запрета создавайте отдельное правило. Запрещайте всем поисковым роботам через * или указывайте название конкретного краулера. Если вы хотите разрешить только одному роботу, прописывайте правило через disallow. 


  3. При создании файла robots.txt избегайте логических и синтаксических ошибок. Проверяйте файл через инструменты Яндекс.Вебмастер и Google Robots Testing Tool.

Материал подготовила Светлана Сирвида-Льорентэ.

Файл robots.txt — настройка и директивы robots.txt, запрещаем индексацию страниц

Robots.txt – это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем.  В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS.

Находится данный файл Робота в корневом каталоге вашего сайта и открывается/редактируется простым блокнотом, я рекомендую Notepad++. Для тех, кто не любит читать — есть ВИДЕО, смотрите в конце статьи 😉

  1. В чем его польза
  2. Директивы и правила написания
  3. Мета-тег Robots и его директивы
  4. Правильные роботсы для популярных CMS
  5. Проверка робота
  6. Видео-руководство
  7. Популярные вопросы

Зачем нужен robots.txt

Как я уже говорил выше – с помощью файла robots.txt мы можем ограничить доступ поисковых ботов к документам, т.е. мы напрямую влияем на индексацию сайта. Чаще всего закрывают от индексации:

  • Служебные файлы и папки CMS
  • Дубликаты
  • Документы, которые не несут пользу для пользователя
  • Не уникальные страницы

Разберем конкретный пример:

Интернет-магазин по продаже обуви и реализован на одной из популярных CMS, причем не лучшим образом. Я могу сразу сказать, что будут в выдаче страницы поиска, пагинация,  корзина, некоторые файлы движка и т.д. Все это будут дубли и служебные файлы, которые бесполезны для пользователя. Следовательно, они должны быть закрыты от индексации, а если еще есть раздел «Новости» в которые копипастятся разные интересные статьи с сайтов конкурентов – то и думать не надо, сразу закрываем.

Поэтому обязательно получаемся файлом robots.txt, чтобы в выдачу не попадал мусор. Не забываем, что файл должен открываться по адресу http://site.ru/robots.txt.

Директивы robots.txt и правила настройки

User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «YandexMedia», то общие директивы user-agent не используются для него. Пример написания:

User-agent: YandexBot 
Disallow: /cart
# будет использоваться только основным индексирующим роботом Яндекса

Disallow/Allow. Это запрет/разрешение индексации конкретного документа или разделу. Порядок написания не имеет значения, но при 2 директивах и одинаковом префиксе приоритет отдается «Allow».  Считывает поисковый робот их по длине префикса, от меньшего к большему. Если вам нужно запретить индексацию страницы — просто введи относительный путь до нее (Disallow: /blog/post-1).

User-agent: Yandex
Disallow: /
Allow: /articles
# Запрещаем индексацию сайта, кроме 1 раздела articles

Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую). Знак доллара означает прерывание. Примеры использования:

Disallow: /page* # запрещает все страницы, конструкции http://site.ru/page
Disallow: /arcticles$ # запрещаем только страницу http://site.ru/articles, разрешая страницы http://site.ru/articles/new

Директива Sitemap. Если вы используете карту сайта (sitemap.xml) – то в robots.txt она должна указываться так:

Sitemap: http://site.ru/sitemap.xml

Директива Host. Как вам известно у сайтов есть зеркала (читаем, Как склеить зеркала сайта). Данное правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:

Host: site.ru

Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow/Allow.

Crawl-delay: 5 # таймаут в 5 секунд

Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно дублирующую информацию (идентификаторы сессий, рефереров, пользователей). Прописывать Clean-param следует для динамических страниц:

Clean-param: ref /category/books # указываем, что наша страница основная, а http://site.ru/category/books?ref=yandex.ru&id=1 это та же страница, но с параметрами

Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:

User-agent: Yandex
Disallow: /cart
Allow: /cart/images
Sitemap: http://site.ru/sitemap.xml
Host: site.ru
Crawl-delay: 2

Мета-тег robots и как он прописывается

Данный вариант запрета страниц лучше учитывается поисковой системой Google. Яндекс одинаково хорошо учитывает оба варианта.

Директив у него 2: follow/nofollow и index/noindex. Это разрешение/запрет перехода по ссылкам и разрешение/запрет на индексацию документа. Директивы можно прописывать вместе, смотрим пример ниже.

Для любой отдельной страницы вы можете прописать в теге <head> </head> следующее:

Мета тег RobotsМета тег Robots

Правильные файлы robots.txt для популярных CMS

Пример Robots.txt для WordPress

Ниже вы можете увидеть мой вариант с данного Seo блога.

User-agent: Yandex
Disallow: /wp-content/uploads/
Allow: /wp-content/uploads/*/*/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: romanus.ru

User-agent: *
Disallow: /wp-content/uploads/
Allow: /wp-content/uploads/*/*/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: https://romanus.ru/sitemap.xml

Трэкбэки запрещаю потому что это дублирует кусок статьи в комментах. А если трэкбэков много — вы получите кучу одинаковых комментариев.

Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).

Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.

Теги закрываем, если мы их не используем или нам лень их оптимизировать.

Примеры для других CMS

Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке.

Как проверить корректность работы файла

Анализ robots.txt в Яндекс Вебмастере – тут.

Проверка robots.txt в ЯндексеПроверка robots.txt в Яндексе

Указываем адрес своего сайта, нажимаем кнопку «Загрузить» (или вписываем его вручную) – бот качает ваш файл. Далее просто указываем нужные нам УРЛы в списке, которые мы хотим проверить и жмем «Проверить».

Смотрим и корректируем, если это нужно.

Популярные вопросы о robots.txt

Как закрыть сайт от индексации?

Как запретить индексацию страницы?

Как запретить индексацию зеркала?

Для магазина стоит закрывать cart (корзину)?

  • Да, я бы закрывал.

У меня сайт без CMS, нужен ли мне robots?

  • Да, чтобы указать Host и Sitemap. Если у вас есть дубли — то исходя из ситуации закрывайте их.

Понравился пост? Сделай репост и подпишись!

Правильный файл robots.txt для сайта

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом. Примеры:

При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, задавая, таким образом, определенные регулярные выражения.

Спецсимвол * означает любую (в том числе пустую) последовательность символов.

Спецсимвол $ означает конец строки, символ перед ним последний.

Директива Sitemap

Если вы используете описание структуры сайта с помощью файла Sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все). Пример:

User-agent: Yandex
Allow: /
sitemap: https://example.com/site_structure/my_sitemaps1.xml
sitemap: https://example.com/site_structure/my_sitemaps2.xml

Директива является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.

Директива Crawl-delay

Директива работает только с роботом Яндекса.

Если сервер сильно нагружен и не успевает отрабатывать запросы робота, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Перед тем, как изменить скорость обхода сайта, выясните к каким именно страницам робот обращается чаще.

  • Проанализируйте логи сервера. Обратитесь к сотруднику, ответственному за сайт, или к хостинг-провайдеру.
  • Посмотрите список URL на странице Индексирование → Статистика обхода в Яндекс.Вебмастере (установите переключатель в положение Все страницы).

Если вы обнаружите, что робот обращается к служебным страницам, запретите их индексирование в файле robots.txt с помощью директивы Disallow. Это поможет снизить количество лишних обращений робота.

Директива Clean-param

Директива работает только с роботом Яндекса.

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:

User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl

робот Яндекса сведет все адреса страницы к одному:

www.example.com/some_dir/get_book.pl?book_id=123

Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.

Синтаксис директивы

Clean-param: p0[&p1&p2&..&pn] [path]

В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.

Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом символ * трактуется так же, как в файле robots.txt: в конец префикса всегда неявно дописывается символ *. Например:

Clean-param: s /forum/showthread.php

означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта.

Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:

Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forum/*.php
Clean-param: someTrash&otherTrash

 Директива HOST

На данный момент Яндекс прекратил поддержку данной директивы.

Правильный robots.txt: настройка

Содержимое файла robots.txt отличается в зависимости от типа сайта (интернет-магазин, блог), используемой CMS, особенностей структуры и ряда других факторов. Поэтому заниматься созданием данного файла для коммерческого сайта, особенно если речь идет о сложном проекте, должен SEO-специалист с достаточным опытом работы.

Неподготовленный человек, скорее всего, не сможет принять правильного решения относительно того, какую часть содержимого лучше закрыть от индексации, а какой позволить появляться в поисковой выдаче.

Правильный Robots.txt пример для WordPress

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads
Sitemap: http://site.ru/sitemap.xml   # адрес карты сайта 
User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

Robots.txt пример для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата

Robots.txt пример для Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: http://путь к вашей карте XML формата

Robots.txt пример для MODx

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Sitemap: http://site.ru/sitemap.xml

Robots.txt пример для Drupal

User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *register*
Disallow: *login*
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*section
Disallow: /*order
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*calendar
Disallow: /*index.php
Allow: /*?page=
Disallow: /*?
Sitemap: http://путь к вашей карте XML формата

ВНИМАНИЕ!

CMS постоянно обновляются. Возможно, понадобиться закрыть от индексации другие страницы. В зависимости от цели, запрет на индексацию может сниматься или, наоборот, добавляться.

Проверить robots.txt

У каждого поисковика свои требования к оформлению файла robots.txt.

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Проверка robotx.txt для поискового робота Яндекса

Сделать это можно при помощи специального инструмента от Яндекс — Яндекс.Вебмастер, еще и двумя вариантами.

Вариант 1:

Справа вверху выпадающий список – выберите Анализ robots.txt или по ссылке http://webmaster.yandex.ru/robots.xml

Robots.txt Яндекс Вебмастер проверка

Вариант 2:

Этот вариант подразумевает, что ваш сайт добавлен в Яндекс Вебмастер и в корне сайта уже есть robots.txt.

Слева выберите Инструменты — Анализ robots.txt

robots.txt проверка в Яндекс Вебмастер

Не стоит забывать о том, что все изменения, которые вы вносите в файл robots.txt, будут доступны не сразу, а спустя лишь некоторое время.

Проверка robotx.txt для поискового робота Google

Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

  1. В Google Search Console выберите ваш сайт, перейдите к инструменту проверки и просмотрите содержание файла robots.txtСинтаксические и логические ошибки в нем будут выделены, а их количество – указано под окном редактирования.
  2. Внизу на странице интерфейса укажите нужный URL в соответствующем окне.
  3. В раскрывающемся меню справа выберите робота.
  4. Нажмите кнопку ПРОВЕРИТЬ.
  5. Отобразится статус ДОСТУПЕН или НЕДОСТУПЕН. В первом случае роботы Google могут переходить по указанному вами адресу, а во втором – нет.
  6. При необходимости внесите изменения в меню и выполните проверку заново. Внимание! Эти исправления не будут автоматически внесены в файл robots.txt на вашем сайте.
  7. Скопируйте измененное содержание и добавьте его в файл robots.txt на вашем веб-сервере.

robots.txt проверка в Google Search Console

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Генераторы robots.txt

  1. Сервис от SEOlib.ru.С помощью данного инструмента можно быстро получить и проверить ограничения в файле Robots.txt.
  2. Генератор от pr-cy.ru.В результате работы генератора Robots.txt вы получите текст, который необходимо сохранить в файл под названием Robots.txt и загрузить в корневой каталог вашего сайта.

Как запретить индексацию страницы с помощью robots.txt?

Как запретить индексацию страницы в robots.txt

От автора: У вас на сайте есть страницы, которые вы бы не хотели показывать поисковым системам? Из этой статье вы узнаете подробно о том, как запретить индексацию страницы в robots.txt, правильно ли это и как вообще правильно закрывать доступ к страницам.

Итак, вам нужно не допустить индексацию каких-то определенных страниц. Проще всего это будет сделать в самом файле robots.txt, добавив в него необходимые строчки. Хочу отметить, что адреса папок мы прописывали относительно, url-адреса конкретных страниц указывать таким же образом, а можно прописать абсолютный путь.

Допустим, на моем блоге есть пару страниц: контакты, обо мне и мои услуги. Я бы не хотел, чтобы они индексировались. Соответственно, пишем:

User-agent: *
Disallow: /kontakty/
Disallow: /about/
Disallow: /uslugi/

User-agent: *

Disallow: /kontakty/

Disallow: /about/

Disallow: /uslugi/

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Естественно, указываем настоящие url-адреса. Если же вам необходимо не индексировать страничку http://blog.ru/about-me, то в robots.txt нужно прописать так:

Другой вариант

Отлично, но это не единственный способ закрыть роботу доступ к определенным страничкам. Второй – это разместить в html-коде специальный мета-тег. Естественно, разместить только в тех записях, которые нужно закрыть. Выглядит он так:

<meta name = «robots» content = «noindex,nofollow»>

<meta name = «robots» content = «noindex,nofollow»>

Тег должен быть помещен в контейнер head в html-документе для корректной работы. Как видите, у него два параметры. Name указывается как робот и определяет, что эти указания предназначены для поисковых роботов.

Параметр же content обязательно должен иметь два значения, которые вписываются через запятую. Первое – запрет или разрешение на индексацию текстовой информации на странице, второе – указание насчет того, индексировать ли ссылки на странице.

Таким образом, если вы хотите, чтобы странице вообще не индексировалась, укажите значения noindex, nofollow, то есть не индексировать текст и запретить переход по ссылкам, если они имеются. Есть такое правило, что если текста на странице нет, то она проиндексирована не будет. То есть если весь текст закрыт в noindex, то индексироваться нечему, поэтому ничего и не будет попадать в индекс.

Кроме этого есть такие значения:

noindex, follow – запрет на индексацию текста, но разрешение на переход по ссылкам;

index, nofollow – можно использовать, когда контент должен быть взят в индекс, но все ссылки в нем должны быть закрыты.

index, follow – значение по умолчанию. Все разрешается.

Запрещается использовать более двух значений. Например:

<meta name = «robots» content = «noindex,nofollow, follow»>

<meta name = «robots» content = «noindex,nofollow, follow»>

И любые другие. В этом случае мы видим противоречие.

Итог

Наиболее удобным способом закрытия страницы для поискового робота я вижу использование мета-тега. В таком случае вам не нужно будет постоянно, сотни раз редактировать файл robots.txt, чтобы открыть или закрыть очередной url, а это решение принимается непосредственно при создании новых страниц.

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

Как закрыть сайт или его страницы от индексации: подробная инструкция

Что нужно закрывать от индексации

Важно, чтобы в поисковой выдаче были исключительно целевые страницы, соответствующие запросам пользователей. Поэтому от индексации в обязательном порядке нужно закрывать:

1. Бесполезные для посетителей страницы или контент, который не нужно индексировать. В зависимости от CMS, это могут быть:

  • страницы административной части сайта;

  • страницы с личной информацией пользователей, например, аккаунты в блогах и на форумах;

  • дубли страниц;

  • формы регистрации, заказа, страница корзины;

  • страницы с неактуальной информацией;

  • версии страниц для печати;

  • RSS-лента;

  • медиа-контент;

  • страницы поиска и т.д.

2. Страницы с нерелевантным контентом на сайте, который находится в процессе разработки.

3. Страницы с информацией, предназначенной для определенного круга лиц, например, корпоративные ресурсы для взаимодействий между сотрудниками одной компании.

4. Сайты-аффилиаты.

Если вы закроете эти страницы, процесс индексации других, наиболее важных для продвижения страниц сайта ускорится.

    Способы закрытия сайта от индексации

    Закрыть сайт или страницы сайта от поисковых краулеров можно следующими способами:

    1. С помощью файла robots.txt и специальных директив.

    2. Добавив метатеги в HTML-код отдельной страницы.

    3. С помощью специального кода, который нужно добавить в файл .htaccess.

    4. Воспользовавшись специальными плагинами (если сайт сделан на популярной CMS).

    Далее рассмотрим каждый из этих способов.

    С помощью robots.txt

    Robots.txt — текстовый файл, который поисковые краулеры посещают в первую очередь. Здесь для них прописываются указания — так называемые директивы.

    Этот файл должен соответствовать следующим требованиям:

    • название файла прописано в нижнем регистре;

    • он имеет формат .txt;

    • его размер не превышает 500 КБ;

    • находится в корне сайте;

    • файл доступен по адресу URL сайта/robots.txt, а при его запросе сервер отправляет в ответ код 200 ОК.

    В robots.txt прописываются такие директивы:

    • User-agent. Показывает, для каких именно роботов предназначены директивы.

    • Disallow. Указывает роботу на то, что некоторое действие (например, индексация) запрещено.

    • Allow. Напротив, разрешает совершать действие.

    • Sitemap. Указывает на прямой URL-адрес карты сайта.

    • Clean-param. Помогает роботу Яндекса правильно определять страницу для индексации.

    • Crawl-delay. Позволяет задать роботу Яндекса диапазон времени между окончанием загрузки одной страницы и началом загрузки другой. Измеряется в секундах.

    Имейте в виду: поскольку информация в файле robots.txt — это скорее указания или рекомендации, нежели строгие правила, некоторые системы могут их игнорировать. В таком случае в индекс попадут все страницы вашего сайта.

    Полный запрет сайта на индексацию в robots.txt

    Вы можете запретить индексировать сайт как всем роботам поисковой системы, так и отдельно взятым. Например, чтобы закрыть весь сайт от робота Яндекса, который сканирует изображения, нужно прописать в файле следующее:

    User-agent: YandexImages 
    Disallow: /  

    Чтобы закрыть для всех роботов:

    User-agent: * 
    Disallow: / 

    Чтобы закрыть для всех, кроме указанного:

    User-agent: * 
    Disallow: / 
    User-agent: Yandex 
    Allow: / 

    В данном случае, как видите, индексация доступна для роботов Яндекса.

    Запрет на индексацию отдельных страниц и разделов сайта

    Для запрета на индексацию одной страницы достаточно прописать ее URL-адрес (домен не указывается) в директиве файла:

    User-agent: *
    Disallow: /registration.html

    Чтобы закрыть раздел или категорию:

    User-agent: *
    Disallow: /category/  

    Чтобы закрыть все, кроме указанной категории:

    User-agent: *
    Disallow: /
    Allow: /category

    Чтобы закрыть все категории, кроме указанной подкатегории:

    User-agent: *
    Disallow: /uslugi
    Allow: /uslugi/main 

    В качестве подкатегории здесь выступает «main».

    Запрет на индексацию прочих данных

    Чтобы скрыть директории, в файле нужно указать:

    User-agent: *
    Disallow: /portfolio/ 

    Чтобы скрыть всю директорию, за исключением указанного файла:

    User-agent: *
    Disallow: /portfolio/
    Allow: avatar.png 

    Чтобы скрыть UTM-метки:

    User-agent: *
    Disallow: *utm= 

    Чтобы скрыть скриптовые файлы, нужно указать следующее:

      User-agent: *  
      Disallow: /scripts/*.ajax
    

    По такому же принципу скрываются файлы определенного формата:

    User-agent: *
    Disallow: /*.png

    Вместо .png подставьте любой другой формат.

    Через HTML-код

    Запретить индексировать страницу можно также с помощью метатегов в блоке <head> в HTML-коде.

    Атрибут «content» здесь может содержать следующие значения:

    • index. Разрешено индексировать все содержимое страницы;

    • noindex. Весь контент страницы, кроме ссылок, закрыт от индексации;

    • follow. Разрешено индексировать ссылки;

    • nofollow. Разрешено сканировать контент, но ссылки при этом закрыты от индексации;

    • all. Все содержимое страницы подлежит индексации.

    Открывать и закрывать страницу и ее контент можно для краулеров определенной ПС. Для этого в атрибуте «name» нужно указать название робота:

    • yandex — обозначает роботов Яндекса:

    • googlebot — аналогично для Google.

    Помимо прочего, существует метатег Meta Refresh. Как правило, Google не индексирует страницы, в коде которых он прописан. Однако использовать его именно с этой целью не рекомендуется.

    Так выглядит фрагмент кода, запрещающий индексировать страницу:

    <html>
        <head>
            <meta name="robots" content="noindex, nofollow" />
        </head>
        <body>...</body>
    </html>

    Чтобы запретить индексировать страницу краулерам Google, нужно ввести:

    <meta name="googlebot" content="noindex, nofollow"/>

    Чтобы сделать то же самое в Яндексе:

    <meta name="yandex" content="none"/>

    На уровне сервера

    В некоторых случаях поисковики игнорируют запреты и продолжают индексировать все данные. Чтобы этого не происходило, рекомендуем попробовать ограничить возможность посещения страницы для отдельных краулеров на уровне сервера. Для этого в файл .htaccess в корневой папке сайта нужно добавить специальный код. Для краулеров Google он будет таким:

    SetEnvIfNoCase User-Agent "^Googlebot" search_bot

    Для краулеров Яндекса таким:

    SetEnvIfNoCase User-Agent "^Yandex" search_bot

    На WordPress

    В процессе создания сайта на готовой CMS нужно закрывать его от индексации. Здесь мы разберем, как сделать это в популярной CMS WordPress.

    Закрываем весь сайт

    Закрыть весь сайт от краулеров можно в панели администратора: «Настройки» => «Чтение». Выберите пункт «Попросить поисковые системы не индексировать сайт». Далее система сама отредактирует файл robots.txt нужным образом.

    Закрытие сайта от индексации через панель администратора в WordPress

    Закрываем отдельные страницы с помощью плагина Yoast SEO

    Чтобы закрыть от индексации как весь сайт, так и его отдельные страницы или файлы, установите плагин Yoast SEO.

    Для запрета на индексацию вам нужно:

    • Открыть страницу для редактирования и пролистать ее вниз до окна плагина.

    • Настроить режим индексации на вкладке «Дополнительно».

    Закрытие от индексации с помощью плагина Yoast SEO

    Настройка режима индексации

    Запретить индексацию сайта на WordPress можно также через файл robots.txt. Отметим, что в этом случае требуется особый подход к редактированию данного файла, так как необходимо закрыть различные служебные элементы: страницы рассылок, панели администратора, шаблоны и т.д. Если этого не сделать, в поисковой выдаче могут появиться нежелательные материалы, что негативно скажется на ранжировании всего сайта.

    Как узнать, закрыт ли сайт от индексации

    Есть несколько способов, которыми вы можете воспользоваться, чтобы проверить, закрыт ли ваш сайт или его отдельная страница от индексации или нет. Ниже рассмотрим самые простые и удобные из них.

    В Яндекс.Вебмастере

    Для проверки вам нужно пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти кнопку «Инструменты», нажать и выбрать «Проверка ответа сервера».

    Проверка возможности индексации страницы в Яндекс.Вебмастере

    В специальное поле на открывшейся странице вставляем URL интересующей страницы. Если страница закрыта от индексации, то появится соответствующее уведомление.

    Так выглядит уведомление о запрете на индексацию страницы

    Таким образом можно проверить корректность работы файла robots.txt или плагина для CMS.

    В Google Search Console

    Зайдите в Google Search Console, выберите «Проверка URL» и вставьте адрес вашего сайта или отдельной страницы.

    Проверка возможности индексации в Google Search Console

    С помощью поискового оператора

    Введите в поисковую строку следующее: site:https:// + URL интересующего сайта/страницы. В результатах вы увидите количество проиндексированных страниц и так поймете, индексируется ли сайт поисковой системой или нет.

    Проверка индексации сайта в Яндексе с помощью специального оператора

    Проверка индексации отдельной страницы

    С помощью такого же оператора проверить индексацию можно и в Google.

    С помощью плагинов для браузера

    Мы рекомендуем использовать RDS Bar. Он позволяет увидеть множество SEO-показателей сайта, в том числе статус индексации страницы в основных поисковых системах.

    Плагин RDS Bar

    Итак, теперь вы знаете, когда сайт или его отдельные страницы/элементы нужно закрывать от индексации, как именно это можно сделать и как проводить проверку, и можете смело применять новые знания на практике.

    Как закрыть сайт от индексации — Офтоп на vc.ru

    Существует несколько способов закрыть сайт от индексации.

    Запрет в файле robots.txt

    Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:

    Остальные правила должны быть удалены.

    Этот метод самый простой для скрытия сайта от индексации.

    С помощью мета-тега robots

    Прописав в шаблоне страниц сайта в теге <head> следующее правило

    <meta name=»robots» content=»noindex, nofollow»/>

    <meta name=»robots» content=»none»/>

    вы запретите его индексацию.

    Как закрыть зеркало сайта от индексации

    Зеркало — точная копия сайта, доступная по другому домену. То есть два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

    Сделать это стандартными способами невозможно — по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

    Ждите новые заметки в блоге или ищите на нашем сайте.

    Как закрыть сайт от индексации разными способами: инструкция

    Доброго дня, дорогие читатели блога iklife.ru.

    В этой статье я расскажу о том, как закрыть сайт от индексации с помощью самых разных способов. Индексация – это процесс занесения информации вашего ресурса в базы поисковых систем. При этом поисковые роботы могут заносить абсолютно любую информацию вашего проекта. Даже ту, что не нужно. Подобное особенно часто встречается в случаях, когда сам сайт только создан, и какой-то полезной информации там еще нет.

    Естественно, ПС все равно могут начать индексацию, что в дальнейшем может создать некоторые проблемы с SEO-продвижением. Сегодня мы разберем наиболее популярные способы сокрытия проекта от взора поисковых роботов. Давайте начинать!

    Что такое индексация

    Индексация – это процесс, который подразумевает считывание всей информации вашего ресурса для дальнейшего занесения ее в базы ПС. Иными словами, это когда поисковики анализируют ваш сайт, чтобы потом выдавать его пользователям в поисковой выдаче. В процессе индексации учитывается абсолютно все: начиная от дизайна и заканчивая количеством текста в статьях.

    В процессе индексации сайта ПС могут делать для себя определенные пометки. Например, если вы начнете размещать на своем веб-ресурсе копипаст, то ваш сайт может попасть под фильтр. В таком случае он больше не будет участвовать в поисковом ранжировании на равных условиях с другими проектами. Поисковик будет просто занижать ресурс в позициях либо вовсе уберет его из результатов.

    То же касается и каких-то других аспектов SEO-продвижения. Во время индексации поисковые роботы анализируют все показатели, чтобы определить качество сайта и возможность размещения страниц по каким-то определенным запросам. Если на проекте отсутствует информация (статьи и страницы), то разместить его где-то либо не представляется возможным.

    Такой веб-ресурс будет доступен только по прямому обращению с использованием специальных регулярных выражений. В общих результатах его не встретить.

    Роботы ПС начинают индексацию всех открытых сайтов сразу же после их создания. Вы даже можете не добавлять свой проект в Яндекс.Вебмастер и Google Search Console, но роботы все равно придут на ваш ресурс и начнут аудит всей доступной информации. Если вы только что создали свой проект, естественно, вам подобная индексация не нужна. Например, очень часто при создании проектов люди пользуются шаблонами.

    Чтобы лучше настроить внешний вид ресурса, они загружают специальные демо-конфигурации, которые в автоматическом режиме создают тестовые варианты статей. Это, как правило, копипастные материалы, которые нужны только для того, чтобы тема оформления выглядела должным образом. Согласитесь, настраивать шаблон намного проще, если ты сразу видишь, как это все будет выглядеть в конечном итоге. Когда ресурс пустой, настроить шаблон должным образом бывает очень сложно.

    Это особенно актуально для проектов на WordPress, потому как тема на заполненном проекте и тема на пустом выглядят совершенно по-разному. Пользователи выгружают демо-контент, чтобы настроить внешний вид, и в случае, если проект не был закрыт от ПС, эти самые страницы с демо-контентом могут попасть в поисковую выдачу.

    Естественно, они будут на самых последних страницах, но тем не менее это будет создавать негативный эффект для SEO-продвижения. По сути, это можно рассматривать как попадание мусорных страниц и документов в ПС. Потом вам придется удалять их все, на что может потребоваться определенное время.

    Видимого негативного эффекта от этого, конечно, быть не должно. Однако некоторые трудности возникнут. Ваш веб-ресурс не будет классифицироваться как полностью уникальный, и в некоторых случаях поисковые роботы будут занижать позиции уже настоящих статей в выдаче. Даже после удаления всех этих демо-материалов эффект может держаться еще какое-то время.

    Именно поэтому при начальной разработке проекта лучше закрыть его от индексации и открывать уже только после того, как он будет полностью готов. Причем это касается не только демо-контента, но и, вообще, любой разработки – дизайна, скорости загрузки и т. д. Если что-то на ресурсе не работает должным образом, лучше это на время скрыть от глаз пользователей и ПС.

    Помимо закрытия на этапе разработки, есть и другие причины для того, чтобы исключить свой проект из поисковой выдачи. К примеру, это может понадобиться специализированным ресурсам, материалы которых не должны быть в общем доступе. Обычно это какие-то специальные закрытые проекты, информация на которых предназначена для ограниченного количества людей.

    Естественно, если поисковые системы начнут считывать информацию с таких проектов, то ни о какой приватности речь идти не будет. Все данные будут доступны для изучения с помощью различных сервисов. Сами ПС сохраняют слепки сайтов, поэтому, даже если владельцы проекта решат удалить информацию, которая по ошибке попала в поисковик, где-то может остаться сохраненная копия.

    Также закрытие проекта от индексации актуально для внутренних ресурсов различных компаний, которые создают такие сайты для своих сотрудников. Это могут быть специальные панели управления, страницы с расписанием и т. д.

    В общем, причин для закрытия проекта от поисковых систем очень много. Да и способов реализации этого тоже.

    Закрываем сайт от поисковиков разными способами

    Способов скрыть свой сайт от взгляда поисковиков очень много. Например, в WordPress для этого есть специальная галочка, которая автоматически проставляет специальный тег на всех страницах проекта. Подобный функционал есть и в некоторых других платформах. Достаточно просто перейти в панель управления, найти нужный параметр и активировать его. Также есть и более универсальные способы, которые будут работать на большинстве известных CMS. Даже на самописных или HTML-сайтах подобные способы будут работать. О них я и расскажу далее.

    В WordPress

    Для скрытия ресурса от ПС вам достаточно активировать настройку, которая отвечает за видимость для роботов ПС. Перейдите в панель управления, наведите курсор на пункт “Настройки” и выберите там подпункт “Чтение”. Откроется страница, где самой последней опцией будет нужная нам галочка.

    Закрытие сайта от индексации

    Закрытие сайта от индексации

    Активируйте чекбокс с галочкой, после чего кликните на кнопку “Сохранить изменения”. Отныне ваш ресурс не будет индексироваться поисковыми системами. WordPress проставит на всех страницах ресурса специальные теги, которые сообщают, что данный материал не должен участвовать в поисковом ранжировании.

    Метатег robots в коде

    Метатег robots в коде

    При этом даже в самих настройках сообщается, что далеко не всегда поисковые системы следуют этому запросу. Яндекс и Google, скорее всего, последуют, а вот менее популярные ПС могут проиндексировать ваш ресурс несмотря на все усилия.

    В любой момент вы можете вернуться в настройки и отключить эту галочку. Тогда метатег автоматически уберется со всех страниц, и вы сможете отправить их на переобход с помощью Яндекс.Вебмастера или Google Search Console.

    Помимо полного закрытия ресурса, вы можете делать то же самое, но только с нужными статьями или страницами. Для этого вам необходимо будет установить плагин для поисковой оптимизации Yoast SEO или любое аналогичное расширение. В рамках этой статьи я рассмотрю именно Yoast SEO.

    Чтобы закрыть нужную страницу или статью, вы должны открыть редактор в панели управления, после чего прокрутить страницу вниз. Вплоть до сниппета с Yoast SEO, где расположено окно с title, описанием и ключевым словом для вашего материала.

    Перейдите во вкладку “Дополнительно” (значок шестеренки), после чего выберите пункт “Нет” в раскрывающемся меню “Разрешить поисковым системам показывать Запись в результатах поиска?”

    Закрытие записи или страницы

    Закрытие записи или страницы

    Здесь же вы можете указать и другие настройки. Например, расширить метатег robots для этой конкретной страницы. Однако новичкам вряд ли потребуются эти функции. Достаточно будет выбрать соответствующий пункт в настройках записи, после чего сохранить изменения с помощью нужной кнопки.

    Это можно сделать с любой записью и страницей. Также это можно сделать с метками (тегами) и другими кастомными таксономиями.

    Чтобы закрыть полностью все страницы или полностью все записи, вы также можете воспользоваться параметрами плагина Yoast SEO. Просто перейдите в меню “SEO” – “Отображение в поисковой выдаче”. Откроется страница, где в верхнем меню необходимо выбрать пункт “Типы содержимого”. Там будут указаны все таксономии вашего ресурса.

    Отображение в поисковой выдаче

    Отображение в поисковой выдаче

    К каждой таксономии будет свой набор настроек, который, как правило, имеет один шаблон. Вам необходимо перейти к нужной таксономии (например, к записям), развернуть содержимое вкладки и выбрать “Нет” в пункте “Показать Записи в результатах поиска?” После этого вам нужно просто сохранить настройки.

    На всех записях автоматически проставится метатег robots, который будет сообщать поисковикам, что именно эти документы индексировать не нужно. В то же время другие таксономии и страницы будут доступны для индексации.

    То же самое вы можете сделать и со страницами, и с архивами, и с метками. Нужно просто перейти к нужному пункту, изменить эту настройку, после чего сохранить изменения.

    Запрет через robots.txt

    Закрыть ресурс от взгляда ПС можно с помощью самого стандартного способа – через robots.txt, который есть практически на каждом проекте. Данный файл имеет очень большое значение для поисковиков, потому что именно в нем описываются все правила для роботов. Если этого файла нет, ПС классифицируют подобное как ошибку.

    Для закрытия всего проекта вам необходимо стереть все нынешнее содержимое файла, после чего добавить туда следующие строки.

    User-agent: *

    Disallow: /

    Эти правила будут закрывать ваш сайт от всех ПС. При желании вы можете закрыть ресурс только от одного поисковика. Для этого вместо звездочки необходимо указать название робота.

    Например, чтобы скрыть проект конкретно от Google, вам нужно использовать такой код.

    User-agent: Googlebot

    Disallow: /

    Также вместо Googlebot можно прописать “Yandex”, тогда ваш ресурс будет скрыт только от Яндекса.

    Чтобы скрыть конкретную папку или страницу, вы должны указать ее в файле, используя директиву “Disallow”.

    К примеру, вы хотите закрыть страницу /blog/ от всех ПС. Остальные материалы по вашему замыслу должны индексироваться. Для этого вы должны использовать следующие строчки в robots.txt.

    User-agent: *

    Disallow: /blog/

    Проверить правильность использования robots.txt вы можете в панелях управления для вебмастеров. Подобные инструменты есть и в Яндексе, и в Google.

    Кстати говоря, использование правильного файла robots.txt – залог успешного SEO-продвижения. О том, как создать правильный robots.txt для WordPress и Joomla я рассказывал в отдельном материале. Рекомендую ознакомиться.

    Через метатег robots

    Этот способ очень похож на самый первый, где я рассказывал, как закрыть ресурс от индексации в WordPress через настройки и плагин. Только в этом случае вам придется добавлять нужный метатег в код самостоятельно без всяких интерфейсов и т. д.

    Во все страницы, которые вы хотите закрыть от ПС, нужно добавить следующий тег.

    <meta name=”robots” content=”noindex, nofollow”/>

    В WordPress это можно сделать при помощи редактора тем, который расположен в меню “Внешний вид”. Просто перейдите в панель управления, найдите там нужный пункт, наведите на него курсор и выберите “Редактор тем”.

    Далее, вам нужно будет выбрать файл заголовка (header.php), который используется почти на всех страницах проекта. Туда-то и нужно вставить данный метатег.

    Сразу скажу, что ручное размещение тега именно на WordPress неоправданно. Зачем это делать, если есть настройки, которые могут помочь реализовать все в более упрощенном варианте.

    Такой способ больше подойдет для самописных сайтов или ресурсов, которые используют какие-то сторонние платформы, где нет возможности так просто активировать данный метатег в настройках.

    Через htaccess

    С помощью этого файла можно закрыть ресурс от индексации. Сделать это можно при помощи таких строчек.

    SetEnvIfNoCase User-Agent «^Yandex» search_bot

    SetEnvIfNoCase User-Agent «^Googlebot» search_bot

    SetEnvIfNoCase User-Agent «^Mail» search_bot

    SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot

    SetEnvIfNoCase User-Agent «^php» search_bot

    SetEnvIfNoCase User-Agent «^Parser» search_bot

    SetEnvIfNoCase User-Agent «^spider» search_bot

    SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot

    SetEnvIfNoCase User-Agent «^Snapbot» search_bot

    SetEnvIfNoCase User-Agent «^Yahoo» search_bot

    SetEnvIfNoCase User-Agent «^Aport» search_bot

    SetEnvIfNoCase User-Agent «^Robot» search_bot

    SetEnvIfNoCase User-Agent «^msnbot» search_bot

    SetEnvIfNoCase User-Agent «^WordPress» search_bot

    SetEnvIfNoCase User-Agent «^bot» search_bot

    Нужно добавить их в файл. Эти правила закроют ваш проект от всех известных ПС.

    Заключение

    Как видите, способов закрытия проекта от ПС очень много. Я рассмотрел наиболее популярные и действенные варианты. Надеюсь, что этот материал поможет вам в решении ваших проблем. Все на самом деле очень просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно просто активировать настройку, и проект будет закрыт.

    Также можно воспользоваться универсальным способом и закрыть ресурс через robots.txt. Таким вариантом пользуется абсолютное большинство вебмастеров, и никаких нареканий у них не возникает. В любой удобный момент можно просто изменить содержимое файла и отправить сайт на переиндексацию.

    Если вы новичок в мире вебмастеринга и хотите начать зарабатывать на собственном блоге или информационном сайте, я советую вам ознакомиться с курсом Василия Блинова – автора и создателя iklife.ru. В этом курсе собрана вся необходимая и полезная информация по разработке сайтов, монетизации, SEO-продвижению и другим полезным сферам. На лендинге по ссылке выше вы сможете найти все необходимые подробности.

    Правильный файл robots.txt для сайта

    Директивы Разрешить и запретить из соответствующего блока User-agent сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в данном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом. Примеры:

    При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, задавая, таким образом, регулярные выражения.

    Спецсимвол * означает любую (в том числе пустую) последовательность символов.

    Спецсимвол $ означает конец строки, символ перед ним последний.

    Директива Карта сайта

    Если вы используете файлы структуры сайта с помощью карты сайта, укажите путь к файлу в качестве директивы карта сайта (если файлов несколько, укажите все). Пример:

     Пользовательский агент: Яндекс.
    Позволять: /
    карта сайта: https://example.com/site_structure/my_sitemaps1.xml
    карта сайта: https: // example.com / site_structure / my_sitemaps2.xml 

    Директива является межсекционной, поэтому будет роботом вне зависимости от места в файле robots.txt, где она указана.

    Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессии загрузки.

    Директива Crawl-delay

    Директива работает только с роботом Яндекса.

    Если сервер сильно нагружен и не успевает отрабатывать запрос робота, воспользуйтесь директивой Crawl-delay.Она позволяет задать поисковому роботу минимальный период времени (в секунду) между окончанием одной страницы и началом следующей.

    Перед тем, как изменить скорость обхода сайта.

    • Проанализируйте логи сервера. Обратитесь к сотруднику, ответственному за сайт, или к хостинг-провайдеру.
    • Посмотрите список URL на странице Индексирование → Статистика обхода в Яндекс.Вебмастере (установите переключатель в положение Все страницы).

    Если вы обнаружите, что робот использует к служебным страницам, запретите их индексирование в файле robots.txt с помощью директивы Disallow. Это поможет снизить количество лишних обращений робота. Директива

    Clean-param

    Директива работает только с роботом Яндекса.

    . Если адреса сайта содержат динамические параметры, которые не влияют на их содержимое (данные сессий, пользователей, рефереров и т. П.), Вы можете описать их с помощью директивы Clean-param.

    Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующую информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

    Например, на сайте есть страницы:

      www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
    www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123
    www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123  

    Параметр ref используется только для того, чтобы отследить с каким ресурсом был сделан запрос и не меняет содержимое, по всем трем адресам будет наша одна и та же страница с книгой book_id = 123.Тогда, если указать директиву следующим образом:

      Пользовательский агент: Яндекс
    Запретить:
    Clean-param: ref /some_dir/get_book.pl  

    робот Яндекса сведет все адреса страницы к одному:

      www.example.com/some_dir/get_book.pl?book_id=123  

    Если на сайте такая страница , именно она будет участвовать в результатах поиска.

    Синтаксис директивы

      Clean-param: p0 [& p1 & p2 & .. & pn] [path]  

    В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать.Во втором поле указывается префикс пути страниц, для применения правила.

    Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

    Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9 .- / * _. При этом символ * трактуется так же, как в файле robots.txt: в конец префикса всегда неявно дописывается символ *. Например:

      Clean-param: s /forum/showthread.php  

    означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет для всех страниц сайта.

    Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:

      Clean-param: abc / forum / showthread.php
    Clean-param: sid и сортировка /forum/*.php
    Clean-param: someTrash & otherTrash  

    Директива HOST

    На данный момент Яндекс прекратил поддержку данной директивы.

    Правильный robots.txt: настройка

    Содержимое файла robots.txt отличается в зависимости от типа сайта (интернет-магазин, блог), используемой CMS, структуры и ряда других факторов. Специально для этого предназначен SEO-специалист с достаточным опытом работы.

    Неподготовленный человек, скорее всего, не сможет принять правильного решения относительно того, какую часть содержимого лучше закрыть от индексации, а какой результат появляется в поисковой выдаче.

    Правильный Robots.txt пример для WordPress

      User-agent: * # общие правила для роботов, кроме Яндекса и Google,
                                # т.к. для них правила ниже
    Disallow: / cgi-bin # папка на хостинге
    Запретить: /? # все параметры запроса на главной
    Disallow: / wp- # все файлы WP: / wp-json /, / wp-includes, / wp-content / plugins
    Disallow: / wp / # если есть подкаталог / wp /, где установлена ​​CMS (если нет,
                                # правило можно удалить)
    Запретить: *? S = # поиск
    Запретить: * & s = # поиск
    Запретить: / search / # поиск
    Disallow: / author / # архив автора
    Disallow: / users / # архив авторов
    Disallow: * / trackback # трекбеки, комментарии в комментариях о появлении открытой
                                # ссылки на статью
    Disallow: * / feed # все фиды
    Disallow: * / rss # rss фид
    Disallow: * / embed # все встраивания
    Запретить: * / wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используется,
                                # правило можно удалить)
    Disallow: /xmlrpc.php # файл WordPress API
    Disallow: * utm * = # ссылки с utm-метками
    Disallow: * openstat = # ссылки с метками openstat
    Разрешить: * / uploads # открываем папку с файлами uploads
    Карта сайта: http://site.ru/sitemap.xml # адрес карты сайта  
    User-agent: GoogleBot # правила для Google (комментарии не дублирую)
    Disallow: / cgi-bin
    Запретить: /?
    Запретить: / wp-
    Запретить: / wp /
    Запретить: *? S =
    Запретить: * & s =
    Запретить: / поиск /
    Запретить: / author /
    Запретить: / users /
    Disallow: * / trackback
    Disallow: * / feed
    Запрещение: * / rss
    Disallow: * / embed
    Запретить: * / wlwmanifest.xml
    Запретить: /xmlrpc.php
    Запретить: * utm * =
    Запретить: * openstat =
    Разрешить: * / uploads
    Разрешить: /*/*.js # открываем js-скрипты внутри / wp- (/ * / - для приоритета)
    Разрешить: /*/*.css # открываем css-файлы внутри / wp- (/ * / - для приоритета)
    Разрешить: /wp-*.png # картинки в плагинах, кешировать папку и т.д.
    Разрешить: /wp-*.jpg # картинки в плагинах, кешировать папку и т.д.
    Разрешить: /wp-*.jpeg # картинки в плагинах, кешировать файлы и т.д.
    Разрешить: /wp-*.gif # картинки в плагинах, кэшировать папку и т.д.
    Разрешить: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS
    
    User-agent: Яндекс # правила для Яндекса (комментарии не дублирую)
    Disallow: / cgi-bin
    Запретить: /?
    Запретить: / wp-
    Запретить: / wp /
    Запретить: *? S =
    Запретить: * & s =
    Запретить: / поиск /
    Запретить: / author /
    Запретить: / users /
    Disallow: * / trackback
    Disallow: * / feed
    Запрещение: * / rss
    Disallow: * / embed
    Запретить: * / wlwmanifest.xml
    Запретить: /xmlrpc.php
    Разрешить: * / uploads
    Разрешить: /*/*.js
    Разрешить: /*/*.css
    Разрешить: / wp- *.PNG
    Разрешить: /wp-*.jpg
    Разрешить: /wp-*.jpeg
    Разрешить: /wp-*.gif
    Разрешить: /wp-admin/admin-ajax.php
    Clean-Param: utm_source & utm_medium & utm_campaign # Яндекс рекомендует не закрывать
                                # от индексирования, а удалить параметры меток,
                                # Google такие правила не поддерживает
    Clean-Param: openstat # аналогично  

    Robots.txt пример для Joomla

    User-agent: *
    Disallow: / administrator /
    Disallow: / cache /
    Disallow: / includes /
    Disallow: / installation /
    Disallow: / language /
    Disallow: / libraries /
    Disallow: / media /
    Disallow: / modules /
    Disallow: / plugins /
    Disallow : / templates /
    Disallow: / tmp /
    Disallow: / xmlrpc /
    Карта сайта: http: // путь к вашей карте XML формата

    Robots.txt пример для Битрикс

    User-agent: *
    Disallow: /*index.php$
    Disallow: / bitrix /
    Disallow: / auth /
    Disallow: / personal /
    Disallow: / upload /
    Disallow: / search /
    Disallow: / * / search /
    Disallow: / * / slide_show /
    Disallow: / * / gallery / * order = *
    Disallow: / *? Print =
    Disallow: / * & print =
    Disallow: / * register =
    Disallow: / * Forgot_password =
    Disallow: / * change_password =
    Disallow: / * login =
    Disallow: / * logout =
    Disallow: / * auth =
    Disallow: / *? action =
    Disallow: / * action = ADD_TO_COMPARE_LIST
    Disallow: / * action = DELETCE_LIST
    Запретить: / * действие = ADD2BASKET
    9005 1 Disallow: / * action = BUY
    Disallow: / * bitrix _ * =
    Disallow: / * backurl = *
    Disallow: / * BACKURL = *
    Disallow: / * back_url = *
    Disallow: / * BACK_URL = *
    Disallow: / * back_url_admin = *
    Disallow: / * print_course = Y
    Disallow: / * COURSE_ID =
    Disallow: / *? COURSE_ID =
    Disallow: / *? PAGEN
    Disallow: / * PAGEN_1 =
    Disallow: / * PAGEN_2 =
    Disallow: / * PAGEN_3 =
    Disallow: / * PAGEN_4 =
    PAGEN_5 * Disallow: / =
    Disallow: / * PAGEN_6 =
    Disallow: / * PAGEN_7 =
    Disallow: / * PAGE_NAME = user_post
    Disallow: / * PAGE_NAME = detail_slide_show _NAME
    Disallow = search: / * PAGE_NAME
    Disallow = search
    Disallow: / * PAGE_NAME = user_post
    Disallow: / * PAGE_NAME = detail_slide_show
    Disallow: / * SHOWALL
    Disallow: / * show_all =
    Карта сайта: http: // путь к вашей карте XML формата

    Robots.txt пример для MODx

    User-agent: *
    Disallow: / assets / cache /
    Disallow: / assets / docs /
    Disallow: / assets / export /
    Disallow: / assets / import /
    Disallow: / assets / modules /
    Disallow: / assets / plugins /
    Disallow: / assets / snippets /
    Disallow: / install /
    Disallow: / manager /
    Карта сайта: http://site.ru/sitemap.xml

    Robots.txt пример для Drupal

    User-agent: *
    Disallow: / database /
    Disallow: / includes /
    Disallow: / misc /
    Disallow: / modules /
    Disallow: / sites /
    Disallow: / themes /
    Disallow: / scripts /
    Disallow: / updates /
    Disallow: / profiles /
    Disallow: / profile
    Запрещает: / profile / *
    Запрещает: / xmlrpc.php
    Disallow: /cron.php
    Disallow: /update.php
    Disallow: /install.php
    Disallow: /index.php
    Disallow: / admin /
    Disallow: / comment / reply /
    Disallow: / contact /
    Disallow: / logout /
    Disallow: / search /
    Disallow: / user / register /
    Disallow: / user / password /
    Disallow: * register *
    Disallow: * login *
    Disallow: / top-rating-
    Disallow: / messages /
    Disallow: / book / export /
    Disallow: / user2userpoints /
    Disallow: / myuserpoints /
    Disallow: / tagadelic /
    Disallow: / referral /
    Disallow: / aggregator /
    Disallow: / files / pin /
    Disallow: / your -голосов
    Disallo w: / comments / latest
    Disallow: / * / edit /
    Disallow: / * / delete /
    Disallow: / * / export / html /
    Disallow: / taxonomy / term / * / 0 $
    Disallow: / * / edit $
    Disallow: / * / outline $
    Disallow: / * / revisions $
    Disallow: / * / contact $
    Disallow: / * downloadpipe
    Disallow: / node $
    Disallow: / node / * / track $
    Disallow: / * &
    Disallow: / *%
    Disallow: / *? Page = 0
    Disallow: / * section
    Disallow: / * order
    Disallow: / *? Sort *
    Disallow: / * & sort *
    Disallow: / * voteupdown
    Disallow: / * calendar
    Disallow: / * index.php
    Разрешить: / *? page =
    Запретить: / *?
    Карта сайта: http: // путь к вашей карте XML формата

    ВНИМАНИЕ!

    CMS постоянно обновляются. Возможно, пройти закрыть от индексации другие страницы. В зависимости от цели, запрет на индексцию может сниматься или, наоборот, добавляться.

    Проверить robots.txt

    У каждого поисковика свои требования к оформлению файла robots.текст.

    Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. Например, Яндекс и Google предоставляют собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

    Проверка robotx.txt для поискового робота Яндекса

    Сделать это можно при помощи специального инструмента от Яндекс - Яндекс.Вебмастер, еще и двумя вариантами.

    Вариант 1:

    Справа вверху выпадающий список - выберите Анализ роботов.txt или по ссылке http://webmaster.yandex.ru/robots.xml

    Robots.txt Яндекс Вебмастер проверка

    Вариант 2:

    Этот вариант подразумевает, что ваш сайт добавлен в Яндекс Вебмастер и в корне сайта уже есть robots.txt .

    Слева выберите Инструменты - Анализ robots .txt

    robots.txt проверка в Яндекс Вебмастер

    Не стоит забывать о том, что все изменения, которые вы вносите в файл robots.txt, будут доступны не сразу, а лишь спустя некоторое время .

    Проверка robotx.txt для поискового робота Google

    Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

    1. В консоли поиска Google ваш сайт, Запрос к инструменту проверки и просмотрите содержание файла robots.txt . Синтаксические и логические ошибки в нем будут выделены, а их количество - указано под окном редактирования.
    2. Внизу на экране укажите нужный URL-адрес в соответствующем окне.
    3. В раскрывающемся меню справа выберите робота .
    4. Нажмите кнопку ПРОВЕРИТЬ .
    5. Отобразится статус ДОСТУПЕН или НЕДОСТУПЕН . В первом случае роботы Google могут переходить по указанному вами адресу, а во втором случае - нет.
    6. При необходимости внесите изменения в меню и проверка заново. Внимание! Эти исправления не будут автоматически внесены в файл robots.txt на вашем сайте.
    7. Скопируйте измененное содержание и добавьте его в файл роботов.txt на вашем веб-сервере.

    robots.txt проверка в Google Search Console

    Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

    Генераторы robots.txt

    1. Сервис от SEOlib.ru. С помощью данного инструмента можно быстро получить и проверить ограничения в файле Robots.txt.
    2. Генератор от pr-cy.ru.В результате работы генератора Robots.txt вы получите текст, который необходимо сохранить в файл под названием Robots.txt и загрузить в дополнительный каталог вашего сайта.

    .

    правил обработки директив, какие директивы не используются в Google и зачем нужны Disallow и Crawl-delay - Пиксель Тулс

    1 сентября 2019 года Google прекратит поддержку нескольких директив в robots.txt. В список попали: noindex, crawl-delay и nofollow. Вместо них рекомендуется использовать:

    • Мета-тег noindex, наиболее эффективный способ удалить страницу из индекса.

    • 404 и 410 коды ответа сервера.В некоторых случаях 410 отрабатывает значительно быстрей для удаления URL из индекса.

    • Защита паролем. Страницы, требующие авторизации, также обычно удаляются из индекса (важно - именно страницы, полностью скрытые под логином, а не часть контента).

    • удаление Временное страница из индекса с помощью инструмента в Search Console.

    • Запретить в robots.txt.

    Тем не менее, роботы.txt по-прежнему остаётся одним из главных файлов для SEO-специалиста. Давайте вспомним самые полезные директивы от простых, до менее очевидных.

    robots.txt

    Это текстовый файл, который содержит инструкции для краулеров - какие страницы сайта не следует посещать, где лежит наш Sitemap.xml и для каких роботов распространяются правила.

    Файл размещается в основной директории сайта. Например:

    Прежде чем начать сканирование сайта, краулеры проверяют наличие роботов.txt и находят правила специфичные для их User-Agent, например Googlebot. Если таких нет - следуют общим инструкциям.

    Действующие правила robots.txt

    Пользовательский агент

    У каждой поисковой системы есть свои «агенты пользователя». По сути, это имя краулера, которое помогает дать определенные указания конкретному ему.

    брать шире, то User-Agent - клиентское приложение на стороне поисковой системы, в некотором смысле имитирующее браузер или, например, мобильное устройство.

    Примеры:

    • Агент пользователя: * - символ астериск используются для обозначения сразу же всех краулеров.

    • User-agent: Яндекс - основной краулер Яндекс-поиска.

    • User-agent: Google-Image - робот поиска Google по картинкам.

    • Пользователь-агент: AhrefsBot - краулер сервиса Ahrefs.

    Важно: если в файле указаны правила для конкретных User-Agent, то роботы будут следовать только своим инструкциям, игнорируя общие правила.

    В примере ниже краулер DuckDukcGo сможет сканировать папки сайта / api / и / tmp / , несмотря на астериск («звёздочку»), отвечающий за инструкции всем роботам.

        Пользовательский агент: *
        Запрещение: / tmp /
        Запретить: / api /
    
        Пользовательский агент: DuckDuckBot
        Disallow: / duckhunt / 

    Запретить

    Директива, которая позволяет блокировать индексации полностью сайт или определенные разделы.

    Может быть полезно для закрытия временных официальных страниц (символ # отвечает за комментарии в коде и игнорируется краулерами).

        Пользовательский агент: *
    
        # Закрываем раздел / cms и все файлы внутри
    
        Disallow: / cms
    
        # Закрываем папку / images / resized / (сами изображения разрешены к сканированию)
    
        Запретить: / api / resized / 

    Упростить инструкции выполняют операторы:

    • * - любая последовательность символов в URL.По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *.

    • $ - символ в конце URL-адреса, он используется, чтобы отменить использование * на конце правил.

        Пользовательский агент: *
    
        # Закрываем URL, начинающиеся с / photo после домена. Например:
        #     /фото
        # / фото / обзор
    
        Запретить: / фото
    
        # Закрываем все URL, начинающиеся с / blog / после домена и заканчивающиеся / stats /
    
        Disallow: / blog / * / stats 

    $

    Важно: в robots.txt не нужно закрывать JS и CSS-файлы, они понадобятся поисковым роботом для правильного отображения (рендеринга) контента.

    Разрешить

    С помощью этой директивы можно напротив, разрешить каталог или конкретный адрес к индексции. В некоторых случаях проще запретить сканирование всего сайта и с помощью Разрешить открыть нужные разделы.

        Пользовательский агент: *
    
        # Блокируем весь раздел / admin
    
        Запретить: / admin
    
        # Кроме файла / admin / css / style.css
    
        Разрешить: /admin/css/style.css
    
        # Открываем все файлы в папке / admin / js. Например:
        # /admin/js/global.js
        # /admin/js/ajax/update.js
    
        Разрешить: / admin / js / 

    Также Разрешить можно использовать для отдельных User-Agent.

        # Запрещаем доступ к сайту всем роботам
    
        Пользовательский агент: *
        Запретить: /
    
        # Кроме краулера Яндекса
    
        Пользователь-агент: Яндекс
        Разрешить: / 

    Задержка сканирования

    Директива, теряющая актуальность в случае Goolge, но полезная для работы с другими поисковиками.

    Позволяет замедлить сканирование, если сервер бывает перегружен. Устанавливает интервал времени для обхода страниц в секундах (для Яндекса). Чем выше значение, тем медленнее краулер ходит по сайту.

        Пользовательский агент: *
        Задержка сканирования: 5 

    Несмотря на то, что Googlebot игнорирует подобные правила, настроить скорость сканирования можно в Google Search Console проекта.

    Интересно, что китайский Baidu также не обращает внимание на Crawl-delay в robots.txt, а Bing воспринимает команду как «временное окно», в рамках которого BingBot будет сканировать сайт только один раз.

    Важно: если высокое значение установлено, убедитесь, что ваш сайт своевременно индексируется. В сутках 86 400 секунд, при Задержка сканирования: 30 будет просканировано не более 2880 страниц в день, что мало для крупных сайтов.

    Карта сайта

    Одно из ключевых применений robots.txt в SEO - указание на расположение карты сайты.Обратите внимание, используется полный URL-адрес (их может быть несколько).

        Карта сайта: https://www.example.com/sitemap.xml
        Карта сайта: https://www.example.com/blog-sitemap.xml 

    Необходимо иметь в виду:

    • Директива

      Карта сайта указывается с заглавной S.

    • Карта сайта не зависит от инструкций User-Agent.

    • Нельзя использовать относительный адрес карты сайта, только полный URL.

    • Файл XML-карты сайта должен располагаться на том же домене.

    Также убедитесь, что ссылка возвращает статус 200 OK без редиректов. Проверить можно с помощью инструмента, определяющего ответ сервера или анализа XML-карты сайта.

    Типичный robots.txt

    Ниже представлены простые и распространенные шаблоны команд для поиска роботов.

    Разрешить полный доступ

    Обратите внимание, правило для Disallow в этом случае не заполняется.

    Полная блокировка доступа к хосту

        Пользовательский агент: *
        Disallow: / 

    Запрет конкретного раздела сайта

        Пользовательский агент: *
        Запретить: / admin / 

    Запрет определенного файла

        Пользовательский агент: *
        Запретить: /admin/my-embarrassing-photo.png 

    Распространенная ошибка

    Установка индивидуальных правил для User-Agent без дублирования инструкций Disallow.

    Как мы уже разработали, пользователь-агент, соответствующий краулер будет следовать только тем правилам, что установлены именно для него. Не забывайте дублировать общие директивы для всех User-Agent.

    В примере ниже - слегка измененный robots.txt сайта IMDB. Общие правила Disallow не будут распространяться на бот ScoutJet. А вот задержка сканирования, напротив, установлена ​​только для него.

        # отредактированная версия robots.txt сайта IMDB
    
        #
        # Задержка интервала сканирование для ScouJet
        #
        
        Пользовательский агент: ScouJet
        Задержка сканирования: 3
        #
        #
    
        #
        # Все остальные
        #
    
        Пользовательский агент: *
        Запретить: / tvschedule
        Запретить: / ActorSearch
        Запретить: / ActressSearch
        Запретить: / AddRecommendation
        Запретить: / ads /
        Запретить: / Альтернативные версии
        Запретить: / AName
        Disallow: / Награды
        Disallow: / BAgent
        Запретить: / Голосование /
    
        #
        #
        Карта сайта: https: // www.imdb.com/sitemap_US_index.xml.gz 

    Противоречия директив

    Общее правило - если две директивы противоречат друг другу, приоритетом пользуется та, в которой большее количество символов.

        Пользовательский агент: *
    
        # /admin/js/global.js разрешён к сканированию
        # /admin/js/update.js по-прежнему запрещён
    
        Запретить: / admin
        Разрешить: /admin/js/global.js 

    Может показаться, что файл /admin/js/global.js попадает под правило блокирования его раздела Отключить: / admin / .Тем не менее, он будет доступен для сканирования, в отличие от всех остальных файлов в каталоге.

    Список распространенных User-Agent

    Пользовательский агент #
    Google
    Googlebot Основной краулер Google
    Googlebot-Image Робот поиска по картинкам
    Bing
    Бингбот Основной краулер Bing
    MSNBot Старый, но всё ещё использующийся краулер Bing
    MSNBot-Media Краулер Bing для изображений
    BingPreview Отдельный краулер Bing для Snapshot-изображений
    Яндекс
    ЯндексБот Основной индексирующий бот Яндекса
    ЯндексИзображения Бот Яндеса для поиска по изображениям
    Baidu
    Baiduspider Главный поисковый робот Baidu
    Baiduspider-image Бот Baidu для картинок
    Applebot Краулер для Apple.Используется для Siri поиска и Spotlight
    SEO-инструменты
    AhrefsBot Краулер сервиса Ahrefs
    MJ12Bot Краулер сервиса Majestic
    Роджербот Краулер сервиса МОЗ
    PixelTools Краулер «Пиксель Тулс»
    Другое
    DuckDuckBot Бот поисковой системы DuckDuckGo

    Советы по операторам

    Как упоминалось выше, широко применяются два оператора: * и $ .С их помощью можно:

    1. Заблокировать определенные типы файлов.

        Пользовательский агент: *
    
        # Блокируем любые файлы с расширением .json
    
        Disallow: /*.json$ 

    В примере выше астериск * указывает на любые символы в названии, а оператор $ гарантирует, что расширение .json находится точно в конце адреса, и правило не исследует страницы вроде /locations.json.html (вдруг есть и такие).

    2. Заблокировать URL с параметром ? , после которого следуют GET-запросы (метод передачи данных от клиента серверу).

    Этот приём активно используется, если у проекта настроено ЧПУ для всех страниц и документы с GET точно являются дублями.

        Пользовательский агент: *
    
        # Блокируем любые URL, представлен символ?
    
        Disallow: / *? 

    Заблокировать результаты поиска, но не саму страницу поиска.

        Пользовательский агент: *
    
        # Блокируем страницу результатов поиска
    
        Запретить: / search.php? query = * 

    Имеет ли значение регистр?

    Определённо да. При указании правил запрещать / разрешать, URL-адреса могут быть относительными, но предписывать регистр.

        Пользовательский агент: *
    
        # / users разрешены для просмотра, поскольку регистр разный
    
        Disallow: / Пользователи 

    Но сами директивы могут объявляться как с заглавной, так и с прописной: Disallow: или disallow: - без разницы. Исключение - Карта сайта: всегда указывается с заглавной.

    Как проверить robots.txt?

    Есть множество сервисов проверки корректности файлов robots.txt, но, пожалуй, самые надёжные: Google Search Console и Яндекс.Вебмастер.

    Для мониторинга изменений, как всегда, незаменим «Модуль ведения проектов»:

    • Контроль индексации на вкладке «Аудит» - динамика сканирования страниц сайта в Яндексе и Google.

    • Контроль изменений в файле robots.txt.Теперь точно не упустите, если кто-то из коллег закрыл сайт от индексации (или наоборот).

    Держите свои robots.txt в порядке, и пусть в индекс попадает только необходимое!

    .

    Файл robots.txt - настройка и директивы robots.txt, запрещаем индексирование страниц

    Robots.txt - это служебный файл, который служит рекомендацией по ограничению доступа к содержимому веб-документов для поисковых систем. В данной статье мы разберем настройку Robots.txt, описание директив и составление его для популярных CMS.

    Находится данный файл корневого каталога вашего сайта и открывается / редактируется общим блокнотом, яую Notepad ++. Для тех, кто не любит читать - есть ВИДЕО, смотрите в конце статьи

    1. В чем его польза
    2. Директивы и правила написания
    3. Мета-тег Роботы и его директивы
    4. Правильные роботсы для популярных CMS
    5. Проверка робота
    6. Видео-руководство
    7. Популярные вопросы

    Зачем нужен робот.txt

    Как я уже говорил выше - с помощью файла robots.txt мы можем ограничить доступ к поисковым ботовам к документам, т.е. мы напрямую влияем на индексцию сайта. Чаще всего закрывают от индексции:

    • Служебные файлы и папки CMS
    • Дубликаты
    • Документы, которые несут пользу для пользователя
    • Не уникальные страницы

    Разберем конкретный пример:

    Интернет-магазин по продаже обуви и реализован на одной из популярных CMS, причем не лучшим образом.Я могу сразу сказать, что будут в выдаче страницы поиска, пагинация, корзина, некоторые файлы движка и т.д. Все это будут дубли и служебные файлы, которые будут бесполезны для пользователя. Следовательно, они должны быть закрыты от индексации, а если еще есть раздел «Новости» в копипастятся разные интересные статьи с сайтов конкурентов - то и думать не надо, сразу закрываем.

    Поэтому обязательно получаемся файлом robots.txt, чтобы в выдачу не попадал мусор. Не забываем, что файл должен открываться по адресу http: // site.ru / robots.txt.

    Директивы robots.txt и правила настройки

    User-agent. Это обращение к конкретному роботу поисковой системы или ко всем роботам. Если прописывается конкретное название робота, например «ЯндексМедиа», то общие директивы user-agent не используются для него. Пример написания:

     Пользовательский агент: ЯндексБот
    Disallow: / cart
    # будет только основным индексирующим роботом Яндекса 

    Запрещено / Разрешено. Это запрет / разрешение индексции конкретного документа или разделу.Порядок написания не имеет значения, но при 2 директивах и одинаковом префиксе приоритет отдается «Разрешить». Считывает поисковый робот их по длине префикса, от меньшего к большему. Если вам нужно запретить индексцию страницы - просто введи относительный путь до нее (Disallow: / blog / post-1).

     Пользовательский агент: Яндекс
    Запретить: /
    Разрешить: / статьи
    # Запрещаем индексцию сайта, кроме 1 раздела статей 

    Регулярные выражения с * и $. Звездочка означает любую последовательность символов (в том числе и пустую).Знак доллара означает прерывание. Примеры использования:

     Disallow: / page * # запрещает все страницы, конструкции http://site.ru/page
    Disallow: / arcticles $ # запрещаем только страницу http://site.ru/articles, разрешая страницы http://site.ru/articles/new 

    Директива Карта сайта. Если вы используете карту сайта (sitemap.xml) - то в robots.txt она должна указываться так:

     Карта сайта: http://site.ru/sitemap.xml 

    Директива Host. Как вам известно у сайтов есть зеркала (читаем, Как склеить зеркала сайта).Это правило указывает поисковому боту на главное зеркало вашего ресурса. Относится к Яндексу. Если у вас зеркало без WWW, то пишем:

     Хост: site.ru 

    Crawl-delay. Задает задержу (в секундах) между скачками ботом ваших документов. Прописывается после директив Disallow / Allow.

     Задержка сканирования: 5 # таймаут в 5 секунд 

    Clean-param. Указывает поисковому боту, что не нужно скачивать дополнительно информацию (идентификаторы сессий, рефереров, пользователей).Прописывать Clean-param следует для динамических страниц:

     Clean-param: ref / category / books # указываем, что наша основная страница, а http://site.ru/category/books?ref=yandex.ru&id=1 это та же страница, но с обязательным 

    Главное правило: robots.txt должен быть написан в нижнем регистре и лежать в корне сайта. Пример структуры файла:

     Пользовательский агент: Яндекс.
    Disallow: / cart
    Разрешить: / cart / images
    Карта сайта: http://site.ru/sitemap.xml
    Хост: site.ru
    Crawl-delay: 2 

    Мета-тег роботов и как он прописывается

    Данный вариант запрета страниц лучше учитывается поисковой системой Google.Яндекс одинаково хорошо учитывает оба варианта.

    Директив у него 2: follow / nofollow и index / noindex . Это разрешение / запрет перехода по ссылкам и разрешение / запрет на индексцию документа. Директивы можно прописывать вместе, смотрим пример ниже.

    Для любой отдельной страницы вы можете прописать в теге следующее:

    Мета тег Robots Мета тег Robots

    Правильные файлы robots.txt для популярных CMS

    Пример Robots.txt для WordPress

    Ниже вы можете увидеть мой вариант с данного Seo блога.

     Пользовательский агент: Яндекс
    Запретить: / wp-content / uploads /
    Разрешить: / wp-content / uploads / * / * /
    Запретить: /wp-login.php
    Запретить: /wp-register.php
    Запретить: /xmlrpc.php
    Запретить: /template.html
    Disallow: / cgi-bin
    Запретить: / wp-admin
    Disallow: / wp-includes
    Запретить: / wp-content / plugins
    Запретить: / wp-content / cache
    Запретить: / wp-content / themes
    Запретить: / wp-trackback
    Запретить: / wp-feed
    Запретить: / wp-comments
    Disallow: * / trackback
    Disallow: * / feed
    Disallow: * / комментарии
    Запретить: / тег
    Запретить: / архив
    Запретить: * / trackback /
    Запрещение: * / feed /
    Запретить: * / комментарии /
    Запретить: /? Feed =
    Запретить: /? S =
    Хозяин: romanus.RU
    
    Пользовательский агент: *
    Запретить: / wp-content / uploads /
    Разрешить: / wp-content / uploads / * / * /
    Запретить: /wp-login.php
    Запретить: /wp-register.php
    Запретить: /xmlrpc.php
    Запретить: /template.html
    Disallow: / cgi-bin
    Запретить: / wp-admin
    Disallow: / wp-includes
    Запретить: / wp-content / plugins
    Запретить: / wp-content / cache
    Запретить: / wp-content / themes
    Запретить: / wp-trackback
    Запретить: / wp-feed
    Запретить: / wp-comments
    Disallow: * / trackback
    Disallow: * / feed
    Disallow: * / комментарии
    Запретить: / тег
    Запретить: / архив
    Запретить: * / trackback /
    Запрещение: * / feed /
    Запретить: * / комментарии /
    Запретить: /? Feed =
    Запретить: /? S =
    Карта сайта: https: // romanus.ru / sitemap.xml 

    Трэкбэки запрещаю, потому что это дублирует кусок статьи в комментах. А если трэкбэков много - вы получите кучу одинаковых комментариев.

    Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу, чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).

    Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.

    Теги закрываем, если мы их не используем или нам лень их оптимизировать.

    Примеры для других CMS

    Чтобы скачать правильных роботов для нужной CMS просто кликните по этой ссылке.

    Как проверить корректность работы файла

    Анализ robots.txt в Яндекс Вебмастере - тут.

    Проверка robots.txt в Яндексе Проверка robots.txt в Яндексе

    Указываем адрес своего сайта, нажимаем кнопку «Загрузить» (или вписываем его вручную) - бот качает ваш файл. Далее просто указываем нужные нам УРЛы в списке, которые мы хотим проверить и жмем «Проверить».

    Смотрим и корректируем, если это нужно.

    Популярные вопросы о robots.txt

    Как закрыть сайт от индексации?

    Как запретить индексцию страницы?

    Как запретить индексцию зеркала?

    Для магазина стоит закрывать корзину (корзину)?

    • Да, я бы закрывал.

    У меня сайт без CMS, нужен ли мне роботы?

    • Да, указать Host и Sitemap. Если у вас есть дубли - то исходя из ситуации закрывайте их.

    Понравился пост? Сделай репост и подпишись!

    .

    Robots.txt - Как создать правильный robots.txt

    Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может быть к высокой нагрузке на сайте со стороны пользователя роботов и медленного индексации и переиндексации, неправильная настройка к сайту полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.текст.

    Для начала короткое видео создаст общее представление о том, что такое файл robots.txt.

    Как влияет robots.txt на индексцию сайта

    Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов.В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).

    Подробнее об исключениях:
    Исключения Яндекса
    Стандарт исключений для роботов (Википедия)

    Максимальную нагрузку на сайт роботы, которые скачивают с вашего сайта. Следовательно, уменьшить нагрузку на сайт со стороны роботов, ускорить процесс загрузки, запретить обходных страниц уменьшить нагрузку на сайт со стороны роботов, ускорить процесс загрузки, запретить обходных страниц .

    Утилиты, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., отвечающие за всплывающие формы, оформление покупки, функционал поиска, личный кабинет, админка.

    Для роботов также желательно отключить индексцию всех JS и CSS. Но для GoogleBot и Яндекс такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для удобства сайта и его ранжирования (пруф Google, пруф Яндекс).

    Директивы robots.txt

    Директивы - это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми же или иными директивами основных роботов.

    Давайте рассмотрим по порядку.

    Пользовательский агент

    Это самая главная директива, определяющая для каких роботов далее следуют правила.

    Для всех роботов:
    User-agent: *

    Для конкретного бота:
    User-agent: GoogleBot

    Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
    user-agent: googlebot

    Ниже приведена таблица основных юзер-агентов различных поисковых систем.

    Бот Функция
    Google
    Googlebot основной индексирующий робот Google
    Googlebot-News Google Новости
    Googlebot-Image Google Картинки
    Googlebot-Video видео
    Медиапартнеры-Google Google AdSense, Google Mobile AdSense
    Медиапартнеры Google AdSense, Google Mobile AdSense
    AdsBot-Google проверка качества страницы
    AdsBot-Google-Mobile-Apps Робот Google для приложений
    Яндекс
    ЯндексБот основной индексирующий робот Яндекса
    ЯндексИзображения Яндекс.Картинки
    ЯндексВидео Яндекс.Видео
    ЯндексМедиа мультимедийные данные
    ЯндексБлоги робот поиска по блогам
    ЯндексAddurl робот, обращенный к странице при добавлении ее формулы «Добавить URL»
    ЯндексФавиконы робот, индексирующий пиктограммы сайтов (значки)
    ЯндексДирект Яндекс.Директ
    ЯндексМетрика Яндекс.Метрика
    ЯндексКаталог Яндекс.Каталог
    Яндекс Новости Яндекс.Новости
    YandexImageResizer робот мобильных сервисов
    Bing
    Бингбот основной индексирующий робот Bing
    Yahoo!
    Хлеб основной индексирующий робот Yahoo!
    Почта.Ru
    Mail.Ru основной индексирующий робот Mail.Ru
    Рамблер
    StackRambler Ранее основной индексирующий робот Rambler. Однако 23.06.11 Rambler перестает поддерживать поисковую систему и теперь использует на своих сервисах Яндексекса. Более не актуально.

    Запрещено и Разрешено

    Disallow закрывает от индексирования страницы и разделы сайта.
    Позвольте принудительно открывает для индексирования страницы и разделы сайта.

    Но здесь не все так просто.

    Во-первых, нужно знать дополнительные операторы и понимать, как они используются - это *, $ и #.

    * - это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
    $ - показывает, что символ перед ним должен быть последним.
    # - комментарий, все что после этого символа в строке роботом не учитывается.

    Примеры использования:

    Disallow: *? S =
    Disallow: / category / $

    Следующие ссылки будут закрыты от индексации:
    http://site.ru/?s=
    http://site.ru/?s=keyword
    http://site.ru/page/?s=keyword
    http : //site.ru/category/

    Следующие ссылки будут открыты для индексации:
    http://site.ru/category/cat1/
    http://site.ru/category-folder/

    Во-вторых, понимать, каким выполняются вложенные правила.
    Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определено по тому, какие директории указаны. Разберем на примере.

    Разрешить: * .css
    Запретить: / template /

    http://site.ru/template/ - закрыто от индексирования
    http://site.ru/template/style.css - закрыто от индексирования
    http://site.ru/style.css - открыто для индексирования
    http://site.ru/theme/style.css - открыто для индексирования

    Если нужно, чтобы все файлы.css были открыты для индексирования это тоже прописать для каждой из закрытых папок. В нашем случае:

    Разрешить: * .css
    Разрешить: /template/*.css
    Запретить: / template /

    юсь, порядок директив не Повторен.

    Карта сайта

    Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.

    Например,

    Карта сайта: http://site.ru/sitemap.xml

    Директива

    Карта сайта указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.

    Хост

    Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http: //, но С https: //. Также если необходимо, то указывается порт.
    Директива поставляется только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Хост прописывается только один раз!

    Пример 1:
    Хост: сайт.ru

    Пример 2:
    Хост: https://site.ru

    Задержка сканирования

    Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Может устанавливаться в целых или дробных единицах (разделитель - точка), время в секундах.

    Пример 1:
    Задержка сканирования: 3

    Пример 2:
    Задержка сканирования: 0,5

    Если сайт имеет небольшую нагрузку, то необходимо такое правило нет.Однако индексция страниц роботом приводит к тому, что сайт расширяет лимиты или испытывает нагрузку до вплоть до перебоев работы сервера, эта директива помогает снизить нагрузку.

    Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений - 0.1, 0.2, 0.5 - и постепенно их увеличивать. Для роботов систем, имеющее меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.

    Чистые параметры

    Это правило сообщает краулеру, что URL-адрес с указанными указанными пунктами не индексировать. Для правил указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.

    Пример 1:

    Clean-param: author_id http://site.ru/articles/

    http://site.ru/articles/?author_id=267539 - индексироваться не будет

    Пример 2:

    Clean-param: author_id & sid http: // site.ru / article /

    http://site.ru/articles/?author_id=267539&sid=0995823627 - индексироваться не будет

    Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и индикаторы сессий. Пример:

    Clean-Param: utm_source & utm_medium & utm_campaign

    Другие параметры

    В расширенной спецификации robots.txt можно найти еще параметры Частота запросов и время посещения. Однако они на данный момент не поддерживаются ведущими поисковыми системами.

    Смысл директив:
    Запрос: 1/5 - загрузить не более одной страницы за пять секунд
    Время посещения: 0600-0845 - загрузить страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

    Закрывающий robots.txt

    Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:

    Пользовательский агент: *
    Disallow: /

    Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.

    Правильная настройка robots.txt

    Для России и стран, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.

    Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:

    1. Закройте от индексирования админку сайта
    2. Закройте от индексирования личный кабинет, авторизацию, регистрацию
    3. Закройте от индексации корзины, формы заказа, данные по доставке и заказам
    4. Закройте от индексирования ajax, json-скрипты
    5. Закройте от индексирования папки cgi
    6. Закройте от индексирования плагины, оформления, js, css для всех роботов, кроме Яндекса и Google
    7. Закройте от индексирования функционал поиска
    8. Закройте от индексации служебных разделов, которые не являются никакими ценностями для сайта в поиске (ошибка 404, список авторов)
    9. Закройте индексирование технических дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
    10. Закройте от индексирования страницы с помощью фильтров, сортировки, сравнение
    11. Закройте от индексирования страницы с UTM-меток и сессий
    12. Проверьте, что проиндексировано Яндексом и Google с помощью использования «site:» (в поисковой строке наберите «site: site.RU"). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
    13. Укажите карту сайта и хост
    14. По необходимости пропишите Crawl-Delay и Clean-Param
    15. Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
    16. Через 2 недели подтвердили, появились ли в поисковой выдаче новые страницы, которые не индексируются. В случае необходимости повторить выше перечисленные шаги.

    Пример robots.txt

     # Пример файла robots.txt для настройки гипотетического сайта https://site.ru
    Пользовательский агент: *
    Запретить: / admin /
    Запретить: / плагины /
    Запретить: / поиск /
    Запрещено: / cart /
    Запретить: * /? S =
    Запретить: * sort =
    Запретить: * view =
    Запретить: * utm =
    Задержка сканирования: 5
    
    Пользовательский агент: GoogleBot
    Запретить: / admin /
    Запретить: / плагины /
    Запретить: / поиск /
    Запрещено: / cart /
    Запретить: * /? S =
    Запретить: * sort =
    Запретить: * view =
    Запретить: * utm =
    Разрешить: / plugins / *.css
    Разрешить: /plugins/*.js
    Разрешить: /plugins/*.png
    Разрешить: /plugins/*.jpg
    Разрешить: /plugins/*.gif
    
    Пользователь-агент: Яндекс
    Запретить: / admin /
    Запретить: / плагины /
    Запретить: / поиск /
    Запрещено: / cart /
    Запретить: * /? S =
    Запретить: * sort =
    Запретить: * view =
    Разрешить: /plugins/*.css
    Разрешить: /plugins/*.js
    Разрешить: /plugins/*.png
    Разрешить: /plugins/*.jpg
    Разрешить: /plugins/*.gif
    Clean-Param: utm_source и utm_medium и utm_campaign
    Задержка сканирования: 0.5
    
    Карта сайта: https://site.ru/sitemap.xml
    Хост: https://site.ru 

    Как добавить и где находится robots.txt

    После того, как вы создали файл robots.txt, его необходимо связать на вашем сайте по адресу site.ru/robots.txt - т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

    Как проверить robots.txt

    Проверка robots.txt осуществляется по следующим ссылкам:

    Типичные ошибки в robots.txt

    В конце статьи приведу несколько типичных ошибок файла robots.txt

    • robots.txt отсутствует
    • в robots.txt сайт закрыт от индексирования (Disallow: /)
    • в файле присутствуют самые основные директивы, нет детальной проработки файла
    • в файле не закрыты от индексирования страницы с UTM-метками и указаторами сессия
    • в файле указаны только директивы
      Allow: * .css
      Allow: * .js
      Allow: * .png
      Allow: * .jpg
      Allow: * .gif
      при этом файлах css, js, png, jpg, gif закрыты Некоторые директорий
    • директива Host прописана несколько раз
    • в Host не указан протокол https
    • путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта

    П.С.

    Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
    Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».

    П.С. 2

    Полезное видео от Яндекса (Внимание! Некоторые подходят только для Яндекса).

    .