Содержание

Как закрыть сайт от индексации в robots.txt

Время прочтения: 4 минуты


О чем статья?

  • Каким страницам и сайтам не нужно индексирование
  • Когда нужно скрыть весь сайт, а когда — только часть его
  • Как выбирать теги, закрывающие индексацию


Кому полезна эта статья?

  • Контент-редакторам
  • Администраторам сайтов
  • Владельцам сайтов


Итак, в то время как все ресурсы мира гонятся за вниманием поисковых роботов ради вхождения в ТОП, вы решили скрыться от индексирования. На самом деле для этого может быть масса объективных причин. Например, сайт в разработке или проводится редизайн интерфейса.

Когда закрывать сайт целиком, а когда — его отдельные части? 


Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Если ресурс имеет большое количество служебной информации, делайте закрытый портал или закрывайте страницы и целые разделы. 


Желательно запрещать индексацию так называемых мусорных страниц. Это старые новости, события и мероприятия в календаре. Если у вас интернет-магазин, проверьте, чтобы в поиске не оказались устаревшие акции, скидки и информация о товарах, снятых с продажи. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.


Лучше скрыть также всплывающие окна и баннеры, скрипты, размещенные на сайте файлы, особенно если последние много весят. Это уменьшит время индексации в целом, что положительно воспринимается поиском, и снизит нагрузку на сервер.

Как узнать, закрыт ресурс или нет? 


Чтобы точно знать, идет ли индексация robots txt, сначала проверьте: возможно, закрытие сайта или отдельных страниц уже осуществлено? В этом помогут сервисы поисковиков Яндекс. Вебмастер и Google Search Console. Они покажут, какие url вашего сайта индексируются. Если сайт не добавлен в сервисы поисковиков, можно использовать бесплатный инструмент «Определение возраста документа в Яндексе» от Пиксел Тулс.

Закрываем сайт и его части: пошаговая инструкция.

  • Для начала найдите в корневой папке сайта файл robots.txt. Для этого используйте поиск.
  • Если ничего не нашли — создайте в Блокноте или другом текстовом редакторе документ с названием robots расширением .txt. Позже его надо будет загрузить в корневую папку сайта.
  • Теперь в этом файле HTML-тегами детально распишите, куда заходить роботу, а куда не стоит.

Как полностью закрыть сайт в роботс? 


Приведем пример закрытия сайта для основных роботов. Все вместе они обозначаются значком *.



Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. При этом также указывайте запрет для индексации всем роботам или тем из них, кто ищет картинки, видео и т.п. Например, указание Яндексу не засылать к вам поиск картинок будет выглядеть как



Здесь YandexImages — название робота Яндекса, который ищет изображения. Полные списки роботов можно посмотреть в справке поисковых систем. 

Как закрыть отдельные разделы/страницы или типы контента? 


Выше мы показали, как запрещать основным или вспомогательным роботам заходить на сайт. Можно сделать немного по-другому: не искать имена роботов, отвечающих за поиск картинок, а запретить всем роботам искать на сайте определенный тип контента. В этом случае в директиве Disallow: / указываете либо тип файлов по модели *.расширениефайлов, либо относительный адрес страницы или раздела.


Прячем ненужные ссылки 


Иногда скрыть от индексирования нужно ссылку на странице. Для этого у вас есть два варианта.

  • В HTML-коде самой этой страницы укажите метатег robots с директивой nofollow. Тогда поисковые роботы не будут переходить по ссылкам на странице, но на них может вести другой материал вашего или сторонних сайтов.
  • В саму ссылку добавьте атрибут rel=»nofollow».


Данный атрибут рекомендует роботу не принимать ссылку во внимание. В этом случае запрет индексации работает и тогда, когда поисковая система находит ссылку не через страницу, где переход закрыт в HTML-коде.

Как закрыть сайт через мета-теги 


Альтернативой файлу robots.txt являются теги, закрывающие индексации сайта или видов контента. Это мета-тег robots. Прописывайте его в исходный код сайта в файле index.html и размещайте в контейнере <head>. 


Существуют два варианта записи мета-тега.



Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название: Googlebot, Яндекс.


Поле “content” из 1 варианта может иметь следующие значения: 

  • none — индексация запрещена, включая noindex и nofollow;
  • noindex — запрещена индексация содержимого;
  • nofollow — запрещена индексация ссылок;
  • follow — разрешена индексация ссылок;
  • index — разрешена индексация;
  • all — разрешена индексация содержимого и ссылок.


Таким образом, можно запретить индексацию содержимого сайта независимо от файла robots.txt при помощи content=”noindex, follow”. Или разрешить ее частично: например, вы хотите не индексировать текст, а ссылки — пожалуйста. Используйте для разных случаев сочетания значений.  


Если закрыть сайт от индексации через мета-теги, создавать robots. txt отдельно не нужно.

Какие встречаются ошибки 


Логические ошибки означают, что правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в панелях инструментах Яндекс.Вебмастер и Google, прежде чем загрузить его на сайт..


Синтаксические — неправильно записаны правила в файле. 

Выводы 

  • Запрет на индексирование — весьма полезная возможность. Убирая служебные, повторяющиеся и устаревшие блоки на страницах, вы повысите уникальность контента и экспертность сайта. 
  • Для проверки того, какие страницы индексируются, проще всего использовать службы поисковиков, но можно воспользоваться сторонними сервисами.  
  • Вы можете использовать 2 варианта: закрытие страницы через файл robots.txt или же мета-тег robots в файле index.html. Оба файла находятся в корневом каталоге. 
  • Закрывая служебную информацию, устаревающие данные, скрипты, сессии и utm-метки, для каждого запрета создавайте отдельное правило в файле robots.txt или отдельный мета-тег. 
  • Разнообразие настроек позволяет точно отобрать и закрыть те части контента, которые, будучи в поиске, не ведут к конверсии, и при этом не могут быть удалены с сайта. 

Материал подготовила Светлана Сирвида-Льорентэ.

Как закрыть ссылки и страницы сайта от индексации?

С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:

  1. Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
  2. Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
  3. Закрыть от роботов дублирующий контекст.
  4. Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.

Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.

Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt

Для начала нужно создать текстовый файл с названием robots.txt.

Затем прописываем там следующий код:

1 User-agent: *

2 Disallow: /

После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.

Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:

1 User-agent: Yandex

2 Disallow: /

Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:

1 User-agent: Googlebot

2 Disallow: /

Закрытие сайта от индексации через файл . php» search_bot

Способ второй

Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:

1 403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden

2 410 «Ресурс недоступен», т.е. окончательно удален

Способ третий

Можно закрыть индексацию к сайту с помощью доступа только по паролю:

В этом случае, в файле .htaccess, вставляем следующий код:

1 AuthType Basic

2 AuthName «Password Protected Area»

3 AuthUserFile /home/user/www-pass/.htpasswd

4 Require valid-user

Значит в корне сайта создаем — home/user/www-pass/.htpasswd

где .htpasswd — файл с паролем, который создаем сами в файле.

Но затем следует добавить пользователя в файл паролей htpasswd — /home/user/www-pass/.htpasswd USERNAME

где USERNAME — это имя пользователя для авторизации.

Здесь можно прописать свой вариант.

Как закрыть отдельный блог от индексации?

Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.

В одно время, достаточно было использовать тег «noindex», но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия.

Здесь может быть любой текст, ссылки или код

Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.

Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.

Универсальный способ закрытия изображений (медиафайлов) от индексации

Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.

В этом случае следует на странице сделать следующую запись в коде:

Скрипт, который будет обрабатывать элемент:

Как закрыть от индексации внешние либо внутренние ссылки?

Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.

Для этого нужно создать файл transfers.js

После этого нижеуказанную часть кода вставляем в файл transfers.js:

function goPage(sPage) {

window.location.href = sPage;

}

После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:

И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:

Как закрыть от индексации роботов отдельную страницу на сайте?

Первый метод — через файл robots.txt

Disallow: /URL-страницы сайта

Второй метод — закрытие с помощью метатегов

Третий метод — в Вебмастере Яндекса, в разделе «Инструменты» с помощью «Удалить URL» можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.

Четвертый метод — сделать запрет на индексацию через ответ сервера:

404 — ошибка страницы

410 — страница удалена

И сделать добавление в файле .htaccess:

ErrorDocument 404 https://URL-сайта/404

Однако, данным метод используется весьма редко.

Как закрыть от индексации сразу весь раздел или категорию на сайте?

Лучший способ — реализовать это с помощью файла robots.txt, где внутри прописать:

User-agent: *

Disallow: /название раздела или категории

Дополнительные варианты:

Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, — правда, если подобные действия могут быть сделаны автоматически:

  1. соответствующий ответ сервера для определенных страниц раздела сайта
  2. применение мета-тегов к определенным страницам

Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию — весьма дороги трудовые затраты.

Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.

Как закрыть от индексации целиком папку?

В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.

User-agent: *

Disallow: /folder/

Пять способов закрытия на сайте дублей от поисковой индексации

Первый способ — и наиболее верный, для того, чтобы их действительно не существовало — необходимо на физическом уровне освободиться от них, т.е. в любом варианте при открытии страницы, кроме оригинальной, должна демонстрироваться страница 404 — ответ сервера.

Второй способ — применять атрибут rel="canonical", который как раз и является наиболее правильным решением. Таким образом, равно как атрибут не позволяет роботам индексировать дублирующиеся страницы, так перенаправляет вес с дублей на оригиналы.

Только на странице дубля в коде следует прописать:

Что такое robots.txt и какие инструменты для его проверки существуют?


Впервые о файле robots.txt (его ещё называют индексным) услышали в 1994 году. За 26 лет его существования изменилось многое, кроме одного – большинство владельцев сайтов до сих пор ничего о нём не знают. Почему стоит познакомиться с robots.txt вашего сайта? Почему так важна его грамотная настройка? Какие ошибки обычно возникают при работе с robots.txt? И как понять, что в файл пора вносить правки? Давайте разбираться.


Robots.txt по праву можно назвать помощником поисковых роботов. Этот файл подсказываем им, какие разделы есть на сайте, какие страницы стоит посмотреть, а на какие заглядывать нет никакой необходимости. Именно в этом файле прописывается запрет индексации на технические страницы, дубли и страницы, которые вы по каким-то причинам не хотите показывать великим и ужасным поисковым системам — Яндексу и Google. Содержимое индексного файла прописывается при помощи кодировки UTF-8. Использование другой кодировки может стать причиной неправильной обработки информации поисковыми роботами.


В рамках SEO файл robots.txt тщательно анализируют с помощью инструментов для его проверки. Почему это так важно? Потому что всего одна ошибка в содержимом этого помощника поисковых роботов может стоить вам бюджета продвижения. Заглянем внутрь этого файла и изучим его подробнее.


Чтобы изучить индексный файл своего сайта, откройте его. Для этого зайдите на главную страницу своего ресурса, в адресной строке после адреса сайта поставьте слэш, а затем введите название файла, который вам нужен (robots.txt). Загрузите страницу. Перед вами тот самый индексный файл. Первая часть нашего robots.txt выглядит вот так:



Ваш robots.txt сильно отличается? Не спешите расстраиваться.

User-agent


Если напротив User-agent в вашем индексном файле прописан Googlebot или Yandex, значит правила задаются только для указанного робота. Звездочка, использованная в примере ниже, показывает, что правила действуют для всех поисковых роботов без исключения. Ошибки в этом правиле можно найти и без инструмента для проверки файла robots.txt.

Disallow


Если на сайте нет страниц, которые нужно закрывать от сканирования, robots.txt может выглядеть вот так:



Если сайт полностью закрыт от индексации, то запись будет отличаться всего на один символ:



Вроде мелочь, а для роботов поисковых систем — совершенно другая картина. Если разработчик закрыл от индексации только часть контента (например, папку, отдельный URL или файл), это отображается напротив правила Disallow.


Allow


Тогда как предыдущее правило запрещает индексирование определенного контента, то это, наоборот, разрешает. Когда его использовать? Например, вы хотите показывать только те страницы, которые располагаются в разделе «Каталог». Все остальные страницы в таком случае закрываются от индексации с помощью правила Disallow.


Host


Это правило используется для показа роботу главного зеркала сайта, которое нужно индексировать. Если сайт работает на HTTPS, протокол обязательно прописывается в индексном файле. Если на HTTP, название протокола можно опустить. Выяснить, верно ли прописано это правило на вашем сайте, можно и не используя инструмент для проверки файла robots.txt. Достаточно найти строку со словом host и сравнить её с образцом.


Sitemap


С помощью этого правила вы показываете роботам поисковых систем, где можно посмотреть все урлы вашего сайта, которые он должен проиндексировать. Чтобы их найти, роботу придётся прогуляться по адресу типа https://site.ua/sitemap.xml. Всё это вписывается в индексный файл. У нас это сделано вот так:


Crawl-delay


Правило стоит использовать, если у вашего ресурса слабый сервер. Оно позволяет увеличивать длину промежутка загрузки страниц. Параметр по умолчанию измеряется в секундах.


Clean-param


Это правило призвано бороться с дублированием контента, связанным с динамическими параметрами. Из-за сортировок, разных id сессий и других причин на сайте одна и та же страница может быть доступна по нескольким адресам. Чтобы поисковый робот не расценил такое явление как дублирование, его прописывают в robots.txt. Если страница отвечает по адресам:


www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1


www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1


www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1,


то правило выглядит следующим образом:



Прежде чем познакомиться с инструментами для проверки файла robots.txt рассмотрим символы, применяемыми в нем.


Чаще всего в robots. txt используются следующие символы:

  • Звездочка

    Необходима для обозначения любой последовательности. Например, с её помощью можно спрятать от робота все файлы с расширением gif, хранящиеся в папке catalog.

  • Слэш

    Ставится для обозначения местонахождения файла в корневом каталоге, а также в тех случаях, когда нужно закрывать от индексации весь сайт.
  • Знак доллара

    Этот символ показывает, где перестает действовать звездочка. В примере на скриншоте мы закрываем от индексации содержимое папки каталог, но при этом урлы, в которых содержится элемент catalog, индексировать разрешено.

  • Решётка

    Используется значительно реже, чем все остальные символы, потому как нужна только для комментариев. После решётки можно написать любую подсказку, которая поможет в работе вам или веб-мастеру, работающему с сайтом.


В интернете можно найти добрую сотню сервисов, разбирающих по косточкам индексные файлы сайтов. Мы доверяем только тем, которые учитывают все изменения в алгоритмах поисковых систем. А таких сервисов всего 2: Google Webmaster Tools и «Анализ robots.txt» от Яндекса. Покажем, как работать с каждым из них.

Google Webmaster Tools


Чтобы начать пользоваться этим инструментом, нужно войти в свой Google-аккаунт, а потом открыть эту ссылку.



Если это ваше первое знакомство с Google Webmaster, придётся добавить сайт и подтвердить свои права на него. Сделать это можно несколькими способами. Самый простой из них – закачка файлов.



После подтверждения прав на сайт вы получите полный доступ к инструменту для проверки файла robots.txt. Выберите этот сервис в панели меню, затем укажите, что хотите проанализировать индексный файл своего сайта. И получите результаты проверки. Выглядеть это будет примерно так:



Красным прямоугольником мы выделили строку, на которую вам нужно обратить своё внимание в первую очередь. Здесь показывается, есть ли ошибки в robots.txt. Если инструмент нашёл ошибки, пролистайте содержимое файла с помощью бегунка и найдите значок белый крест в красном круге на полях. В тех строках, где есть такие значки, что-то написано неправильно. К сожалению, Google ещё не научился сразу же говорить, что именно не так, и предлагать исправления. Поэтому с ошибками придётся разбираться самостоятельно. Или обращаться за советом к профессионалам.


Новая версия этого инструмента для проверки файла robots.txt даёт возможность смотреть, открыты ли для индексации новые страницы. Она также позволяет вносить изменения в индексный файл сразу же после нахождения ошибок. Для этого больше не нужно открывать robots.txt в отдельной вкладке. Ещё одна фишка обновления – просмотр старых версий индексного файла. Вы можете посмотреть не только, что вы меняли в robots.txt, но и как на это реагировали роботы.


В связке с этим инструментом стоит использовать просмотр сайта глазами Googlebot. Применяя эту функцию, вы сможете проанализировать, понравится ли роботу поисковых систем ваш сайт или нет.

«Анализ robots.txt»


С этим сервисом всё проще, хотя бы потому что он приспособлен для русскоязычного пользователя. Прежде чем приступить к непосредственной работе с инструментом для проверки robots.txt, придется пройти те же этапы, что и с Google Webmaster Tools. Когда получите доступ к сервису, загляните в боковое меню и найдите в нём интересующий нас сервис.



На этой странице вы увидите результаты анализа индексного файла. Если в нём есть ошибки, их количество отобразится в нижней части страницы. В верхней части, где помещается robots.txt, можно будет подробно просмотреть ошибки и тут же исправить их.


В разделе «Анализ robots. txt» также можно узнать, индексируются ли определённые страницы сайта или нет. Для этого урлы вносят в нижнее окно и отправляют на проверку.

Правильная настройка robots.txt напрямую влияет на то, какие страницы сайта попадут в индекс и будут выводиться в поиске, а какие никогда там не окажутся. Поэтому так важно свести риск возникновения ошибок в работе индексного файла к минимуму. Вот самые частотные:

  • В файле прописано правило, закрывающее весь сайт от индексации, например, Disallow со значком слэш;
  • Для индексации открыты страницы с ID-сессий и страницы с UTM-метками;
  • Sitemap указан некорректно;
  • Применяются только стандартные правила и не прорабатываются каталоги, страницы, технические папки и другие категории. Как результат, роботы индексируют всё подряд.


Думали, что разберетесь с robots.txt за 5 минут и тут же внесете в него правки, но что-то пошло не так? Не расстраивайтесь. Специалисты Студии ЯЛ решат вашу проблему. Позвоните нам и мы дадим профессиональный совет. Ну а если вы не хотите разбираться с индексным файлом, поручите это нам. В рамках оптимизации и SEO-продвижения сотрудники Студии ЯЛ приведут в порядок ваш robots.txt и не только.


Валентина Брахнова


Специалист отдела контент-маркетинга Студии ЯЛ


Алексей Радкевич


Директор Студии ЯЛ

Другие материалы:

Что такое robots.txt — создание файла роботс.txt

Довольно часто вебмастера и разработчики сталкиваются с вопросами как правильно создать файл robots.txt, что прописывать в файле роботс.txt и как закрыть ту или другую страницу от индексации с помощью robots.txt. Давайте рассмотрим все по порядку.

Что такое файл robots.txt

Иногда бывает нужно скрыть некоторые страницы сайта от приходящих на него поисковых роботов и таким образом закрыть эти страницы от индексации. Сам файл robots.txt должен лежать на сервере в корневом каталоге сайта. Если его там нет или он лежит в любой другой папке эффекта не будет, т.к. робот поисковой системы его попросту не найдет, а если и найдет, то не поймет что с ним делать.

Как правильно создать файл robots.txt и что в нем прописывать

Создать robots.txt очень просто — открываем Блокнот или любой другой текстовый редактор (Word, Notepad++, Sublime Text и т.д.) и создаем новый текстовый файл с названием robots и расширением .txt. Само содержание файла являет собой перечень команд, обращенных к тому или иному поисковому роботу или универсальные команды сразу для всех. Первая строка — это имя робота, вторая — страницы, разделы или подразделы, которые мы хотим закрыть от видимости поисковых систем. Если нужно чтобы поисковики видели весь сайт, то хватит и одной универсальной команды, а содержание файла роботс.txt примет вид:

User-agent: *
Disallow:

Host: www.site. com

В данном примере User-agent и звездочка после двоеточия означают, что команда действует для роботов всех поисковых систем. Слово Disallow c двоеточием, после которого ничего не указано значит, что весь сайт полностью открыт для индексации. Строка Host показывает какую версию сайта робот должен считать главной — с www или без (в данном случае робот должен считать главным зеркало сайта с www).

Как закрыть страницу или сайт от индексации с помощью robots.txt

Для того, чтобы закрыть от индексации весь сайт и чтобы поисковики его не видели, нужно прописать в robots.txt следующие команды:

User-agent: *
Disallow: /

Host: www.site.com

Чтобы закрыть от индексации любую страницу, нужно прописать в robots.txt после Disallow: путь к ней без учета адреса самого сайта — к примеру мы хотим закрыть страницу http://www.site.com/admin.php, тогда нам нужно указать адрес /admin.php. Также можно закрыть директорию (папку) — после ее адреса нужно добавить «/» (как мы это сделали с директорией api). При этом все страницы, которые находятся в данной директории (к примеру http://www.site.com/api/sample-page.php) тоже индексироваться не будут.

User-agent: *
Disallow: /admin.php
Disallow: /api/

Host: www.site.com

Также в файле robots.txt можно использовать регулярные выражения (RegExp). Проверить как сейчас настроен этот файл и какие страницы он блокирует вы всегда можете в Google Webmaster Tools -> Crawl -> Blocked URLs.

Robots.txt Введение и руководство | Центр поиска Google  | Разработчики Google

Файл robots.txt сообщает сканерам поисковых систем, к каким URL-адресам на вашем сайте они могут получить доступ.
Это используется в основном для того, чтобы не перегружать ваш сайт запросами; это не
механизм защиты веб-страницы от Google
. Чтобы веб-страница не попала в Google,
блочная индексация с noindex
или защитите страницу паролем.

Что такое robots.txt используется для?

Файл robots.txt используется главным образом для управления поисковым роботом на вашем сайте.
обычно , чтобы сохранить файл вне Google, в зависимости от типа файла:

robots.txt влияет на разные типы файлов
Веб-страница

Вы можете использовать файл robots.txt для веб-страниц (HTML, PDF или других форматов).
немедийные форматы, которые Google может читать),
для управления сканирующим трафиком, если вы считаете, что ваш сервер будет перегружен запросами
поисковым роботом Google или чтобы избежать сканирования неважных или похожих страниц на вашем сайте.

Предупреждение . Не используйте файл robots.txt как средство скрыть свои веб-страницы от поиска Google.
Результаты.

Если другие страницы ссылаются на вашу страницу с описательным текстом, Google все равно может проиндексировать
URL-адрес без посещения страницы. Если вы хотите заблокировать свою страницу от поиска
результаты, используйте другой метод, например, защиту паролем или
без индекса .

Если ваша веб-страница заблокирована файлом robots.txt , ее URL-адрес по-прежнему может
отображаться в результатах поиска, но результат поиска будет
не иметь описания.
Файлы изображений, видеофайлы, PDF-файлы и другие файлы, отличные от HTML, будут исключены. Если ты видишь
этот результат поиска для вашей страницы и хотите его исправить, удалите запись robots.txt
блокировка страницы. Если вы хотите полностью скрыть страницу из поиска, используйте
другой метод.

Медиафайл

Используйте файл robots.txt для управления сканирующим трафиком, а также для предотвращения
звуковые файлы не появляются в результатах поиска Google. Это не помешает другим страницам или
запретить пользователям ссылаться на ваше изображение, видео или аудиофайл.

Файл ресурсов Вы можете использовать файл robots.txt, чтобы заблокировать файлы ресурсов, такие как неважные изображения, сценарии,
или файлы стилей, , если вы считаете, что страницы, загруженные без этих ресурсов, не будут
существенно пострадает от убытка
. Однако если отсутствие этих
ресурсы затрудняют понимание страницы поисковым роботом Google, не блокируйте
их, иначе Google не сможет хорошо анализировать страницы, которые зависят от
эти ресурсы.

Понимание ограничений роботов.текстовый файл

Прежде чем создавать или редактировать файл robots.txt, вы должны знать пределы блокировки этого URL.
метод. В зависимости от ваших целей и ситуации вы можете рассмотреть другие механизмы для
убедитесь, что ваши URL-адреса не доступны для поиска в Интернете.

  • Директивы robots.txt могут поддерживаться не всеми поисковыми системами.
    Инструкции, содержащиеся в файлах robots.txt, не могут обеспечить принудительное поведение сканера на вашем сайте; работает
    краулеру подчиняться им.В то время как Googlebot и другие уважаемые поисковые роботы подчиняются
    инструкции в файле robots.txt, другие поисковые роботы могут этого не делать. Поэтому, если вы хотите сохранить
    защитить информацию от поисковых роботов, лучше использовать другие методы блокировки, такие как
    защита паролем личных файлов на вашем сервере.
  • Разные программы-обходчики интерпретируют синтаксис по-разному.
    Несмотря на то, что уважаемые поисковые роботы следуют директивам файла robots.txt, каждый поисковый робот
    могут интерпретировать директивы по-разному.Вы должны знать
    правильный синтаксис для адресации
    различные поисковые роботы, так как некоторые из них могут не понимать определенные инструкции.
  • Страница, запрещенная в robots.txt, может
    по-прежнему индексироваться, если на него ссылаются с других сайтов.

    Хотя Google не будет сканировать или индексировать контент, заблокированный файлом robots.txt, мы все равно можем
    найти и проиндексировать запрещенный URL-адрес, если на него есть ссылки из других мест в Интернете. Как результат,
    URL-адрес и, возможно, другая общедоступная информация, такая как якорный текст
    в ссылках на страницу по-прежнему могут отображаться в результатах поиска Google.Чтобы правильно предотвратить ваш URL
    от появления в результатах поиска Google,
    защитить паролем файлы на вашем сервере,
    используйте метатег noindex или заголовок ответа,
    или полностью удалить страницу.

Предостережение : Сочетание нескольких директив сканирования и индексирования может привести к
одни директивы противодействуют другим директивам. Узнайте, как
сочетайте сканирование с индексированием и директивами обслуживания.

Создать файл robots.текстовый файл

Если вы решили, что он вам нужен, узнайте, как
создайте файл robots.txt.

Как запретить поисковым системам сканировать ваш веб-сайт – Центр поддержки хостинга InMotion

Чтобы ваш веб-сайт могли найти другие люди, сканеры поисковой системы, также иногда называемые ботами или пауками, будут сканировать ваш веб-сайт. ищет обновленный текст и ссылки для обновления своих поисковых индексов.

Как управлять роботами поисковых систем с помощью файла robots.txt

Владельцы веб-сайтов могут указать поисковым системам, как им следует сканировать веб-сайт, используя файл robots.txt .

Когда поисковая система сканирует веб-сайт, она сначала запрашивает файл robots.txt , а затем следует его правилам.

Отредактируйте или создайте файл robots.txt

Файл robots.txt должен находиться в корне вашего сайта. Если ваш домен был example.com , он должен быть найден:

На вашем сайте :

 https://example.com/robots.txt 

На вашем сервере :

 /home/userna5/public_html/robots.txt 

Вы также можете создать новый файл и назвать его robots.txt просто текстовым файлом, если у вас его еще нет.

User-agent поисковой системы

Наиболее распространенное правило, которое вы используете в файле robots.txt , основано на User-agent сканера поисковой системы.

Сканеры поисковых систем используют User-agent , чтобы идентифицировать себя при сканировании, вот несколько распространенных примеров:

3 лучших агента пользователя поисковой системы США :

 Googlebot

Яху!

Slurp bingbot 

Общая поисковая система Пользовательские агенты заблокированы :

 AhrefsBot

Байдуспайдер

Эзумы

MJ12bot

YandexBot 

Доступ поисковых роботов через robots.txt file

Существует довольно много вариантов управления сканированием вашего сайта с помощью файла robots.txt .

Правило Агент пользователя: указывает, к какому агенту пользователя применяется правило, а * — это подстановочный знак, соответствующий любому агенту пользователя.

Запретить: устанавливает файлы или папки, которые не разрешены для сканирования.

Установите задержку сканирования для всех поисковых систем :

Если на вашем веб-сайте 1000 страниц, поисковая система потенциально может проиндексировать весь ваш сайт за несколько минут.

Однако это может привести к чрезмерному использованию системных ресурсов при загрузке всех этих страниц за короткий период времени.

A Задержка сканирования: из 30 секунд позволит сканерам проиндексировать весь ваш веб-сайт на 1000 страниц всего за 8,3 часа весь веб-сайт на 1000 страниц в 5,8 дней

Вы можете установить Crawl-delay: для всех поисковых систем одновременно с:

  User-agent:   * 
  Crawl-delay:   30  

Разрешить всем поисковым системам сканировать веб-сайт :

По умолчанию поисковые системы должны иметь возможность сканировать ваш веб-сайт, но вы также можете указать, что им разрешено с помощью:

  Пользователь -агент:   * 
  Запретить:  

Запретить всем поисковым системам сканировать сайт :

Вы можете запретить любой поисковой системе сканировать ваш сайт, используя следующие правила:

  User-agent:  *
  Запретить:   /  

Запретить одной конкретной поисковой системе сканирование веб-сайта :

Вы можете запретить только одной конкретной поисковой системе сканирование вашего веб-сайта с помощью следующих правил:

  
  Запретить:   /  

Запретить все поисковые системы из определенных папок :

Если бы у нас было несколько каталогов, например /cgi-bin/ , /private/wempt/ , ,

, не хотел, чтобы боты ползали, мы могли бы использовать это:

  User-agent:   * 
  Запретить:   /cgi-bin/ 
  Запретить:   /частный/ 
  Запретить:   /tmp/  

Запретить все поисковые системы из определенных файлов :

Если бы у нас были файлы типа , свяжитесь с нами.htm , index.htm и store.htm мы не хотели, чтобы боты сканировали мы могли использовать это:

  User-agent:   * 
  Запретить:   /contactus.htm 
  Запретить:   /index.htm 
  Запретить:   /store.htm  

Запретить все поисковые системы, кроме одной :

Если бы мы только хотели разрешить роботу Googlebot доступ к нашему каталогу /private/ , мы могли бы использовать все остальные ботов и запретить :

  Агент пользователя:   * 
  Запретить:   /частный/ 
  Агент пользователя:   Googlebot 
  Disallow:  

Когда Googlebot читает наши robots.txt , он увидит, что ему не запрещено сканировать какие-либо каталоги.

Как использовать robots.txt для разрешения или запрета всего

Файл robots.txt — это файл, расположенный в корневом домене.

Это простой текстовый файл, основной целью которого является указание поисковым роботам и поисковым роботам файлов и папок, от которых следует держаться подальше.

Роботы поисковых систем — это программы, которые посещают ваш сайт и переходят по ссылкам на нем, чтобы узнать о ваших страницах. Примером может служить поисковый робот Google, который называется Googlebot.

Обычно боты проверяют файл robots.txt перед посещением вашего сайта. Они делают это, чтобы узнать, разрешено ли им сканировать сайт и есть ли вещи, которых следует избегать.

Файл robots.txt следует поместить в каталог верхнего уровня вашего домена, например, example.com/robots.txt.

Лучший способ отредактировать его — войти на свой веб-хост через бесплатный FTP-клиент, такой как FileZilla, а затем отредактировать файл с помощью текстового редактора, такого как Блокнот (Windows) или TextEdit (Mac).

Если вы не знаете, как войти на сервер через FTP, обратитесь в свою хостинговую компанию за инструкциями.

Некоторые плагины, такие как Yoast SEO, также позволяют редактировать файл robots.txt из панели управления WordPress.

Как запретить всем использовать robots.txt

Если вы хотите, чтобы все роботы держались подальше от вашего сайта, то этот код вы должны поместить в свой robots.txt, чтобы запретить все:

  Агент пользователя: *
Запретить: /  

Часть «User-agent: *» означает, что она применяется ко всем роботам. Часть «Запретить: /» означает, что она применяется ко всему вашему сайту.

По сути, это сообщит всем роботам и поисковым роботам, что им не разрешен доступ к вашему сайту или его сканирование.

Важно: Запрет всех роботов на действующем веб-сайте может привести к удалению вашего сайта из поисковых систем и потере трафика и доходов. Используйте это, только если вы знаете, что делаете!

Как разрешить все

Robots.txt работает преимущественно путем исключения. Вы исключаете файлы и папки, к которым не хотите получать доступ, все остальное считается разрешенным.

Если вы хотите, чтобы боты могли сканировать весь ваш сайт, вы можете просто иметь пустой файл или вообще не иметь файла.

Или вы можете поместить это в свой файл robots.txt, чтобы разрешить все:

  Агент пользователя: *
Запретить:  

Это интерпретируется как ничего не запрещающее, поэтому фактически разрешено все.

Как запретить определенные файлы и папки

Вы можете использовать команду «Запретить:», чтобы заблокировать отдельные файлы и папки.

Вы просто помещаете отдельную строку для каждого файла или папки, которые хотите запретить.

Вот пример:

  Агент пользователя: *
Запретить: /topsy/
Запретить: /crets/
Запретить: /hidden/file.html  

В этом случае разрешено все, кроме двух подпапок и одного файла.

Как запретить определенных ботов

Если вы просто хотите заблокировать сканирование одного конкретного бота, то вы делаете это так:

  Агент пользователя: Bingbot
Запретить: /

Пользовательский агент: *
Запретить:  

Это заблокирует поисковый робот Bing от сканирования вашего сайта, но другим ботам будет разрешено сканировать все.

Вы можете сделать то же самое с Googlebot, используя «User-agent: Googlebot».

Вы также можете запретить определенным ботам доступ к определенным файлам и папкам.

Хороший файл robots.txt для WordPress

Следующий код — это то, что я использую в своем файле robots.txt. Это хорошая настройка по умолчанию для WordPress.

  Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php

Карта сайта: https://searchfacts.com/sitemap.xml  

Это роботы.txt сообщает ботам, что они могут сканировать все, кроме папки /wp-admin/. Однако им разрешено сканировать один файл в папке /wp-admin/ с именем admin-ajax.php.

Причиной этого параметра является то, что Google Search Console сообщала об ошибке, если не могла просканировать файл admin-ajax.php.

Googlebot — единственный бот, который понимает «Разрешить:» — он используется для разрешения обхода определенного файла внутри запрещенной папки.

Вы также можете использовать строку «Карта сайта:», чтобы сообщить ботам, где найти вашу XML-карту сайта.Эта карта сайта должна содержать список всех страниц вашего сайта, чтобы поисковым роботам было легче найти их все.

Когда использовать noindex вместо robots

Если вы хотите заблокировать показ всего вашего сайта или отдельных страниц в поисковых системах, таких как Google, то robots.txt — не лучший способ сделать это.

Поисковые системы по-прежнему могут индексировать файлы, заблокированные роботами, просто они не будут показывать некоторые полезные метаданные.

Вместо этого в описании результатов поиска будет указано: «Описание этого результата недоступно из-за роботов этого сайта.текст.»

Источник: Search Engine Roundtable

Если вы скрыли файл или папку с помощью robots.txt, но затем кто-то дал на них ссылку, Google, скорее всего, покажет их в результатах поиска, но без описания.

В этих случаях лучше использовать тег noindex, чтобы запретить поисковым системам отображать его в результатах поиска.

В WordPress, если вы перейдете в «Настройки» -> «Чтение» и отметите «Запретить поисковым системам индексировать этот сайт», на все ваши страницы будет добавлен тег noindex.

Выглядит так:

    

Вы также можете использовать бесплатный плагин SEO, такой как Yoast или The SEO Framework, чтобы не индексировать определенные сообщения, страницы или категории на вашем сайте.

В большинстве случаев noindex лучше блокирует индексацию, чем robots.txt.

Когда вместо этого заблокировать весь сайт

В некоторых случаях может потребоваться заблокировать доступ ко всему сайту как для ботов, так и для людей.

Лучший способ сделать это — поставить пароль на свой сайт. Это можно сделать с помощью бесплатного плагина WordPress под названием «Защищено паролем».

Важные факты о файле robots.txt

Имейте в виду, что роботы могут игнорировать ваш файл robots.txt, особенно вредоносные боты, такие как те, которыми управляют хакеры, ищущие уязвимости в системе безопасности.

Кроме того, если вы пытаетесь скрыть папку со своего веб-сайта, просто поместить ее в файл robots.txt может быть неразумным подходом.

Любой может увидеть файл robots.txt, если введет его в свой браузер, и может понять, что вы пытаетесь скрыть таким образом.

На самом деле, вы можете посмотреть на некоторых популярных сайтах, как настроены их файлы robots.txt. Просто попробуйте добавить /robots.txt к URL-адресу домашней страницы ваших любимых веб-сайтов.

Если вы хотите убедиться, что ваш файл robots.txt работает, вы можете протестировать его с помощью Google Search Console. Вот инструкции.

Сообщение на вынос

Роботы.txt сообщает роботам и поисковым роботам, какие файлы и папки они могут и не могут сканировать.

Его использование может быть полезно для блокировки определенных областей вашего веб-сайта или для предотвращения сканирования вашего сайта определенными ботами.

Если вы собираетесь редактировать файл robots.txt, то будьте осторожны, ведь небольшая ошибка может иметь катастрофические последствия.

Например, если вы неправильно поместите одну косую черту, она может заблокировать всех роботов и буквально удалить весь ваш поисковый трафик, пока это не будет исправлено.

До этого я работал с большим сайтом, однажды случайно поставил «Disallow: /» в их файл robots.txt. Из-за этой маленькой ошибки они потеряли много трафика и доходов.

Файл robots.txt является мощным, поэтому обращайтесь с ним с осторожностью.

 

Как запретить всем использовать robots.txt?

Если вы хотите, чтобы все роботы держались подальше от вашего сайта, то этот код вы должны поместить в свой robots.txt, чтобы запретить все:
User-agent: *
Disallow: /

Как разрешить всем использовать robots.текст?

Если вы хотите, чтобы боты могли сканировать весь ваш сайт, вы можете просто иметь пустой файл или вообще не иметь файла.

Или вы можете поместить это в свой файл robots.txt, чтобы разрешить все:
User-agent: *
Disallow:

Как запретить определенные файлы и папки с robots.txt?

Вы просто помещаете отдельную строку для каждого файла или папки, которые хотите запретить.
Вот пример:
User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html

Как запретить определенных ботов с помощью файла robots.txt?

Если вы просто хотите заблокировать сканирование одного конкретного бота, например Bing, то вы делаете это так:
User-agent: Bingbot
Disallow: /

Какой файл robots.txt подходит для WordPress?

Следующий код — это то, что я использую в своем файле robots.txt. Это хорошая настройка по умолчанию для WordPress.
Агент пользователя: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php
Карта сайта: https://searchfacts.com/sitemap.xml

Полное руководство по сокрытию страниц сайта от индексации

Индексация страниц сайта — это то, с чего начинается процесс поисковой оптимизации. Предоставление ботам движка доступа к вашему контенту означает, что ваши страницы готовы для посетителей, и вы хотите, чтобы они отображались в поисковой выдаче, поэтому всеобъемлющая индексация на первый взгляд кажется огромным преимуществом.

Однако некоторые типы страниц лучше не включать в поисковую выдачу. Это означает, что вам нужно скрыть их от индексации.В этом посте я расскажу вам о типах контента, который нужно скрыть от поисковых систем, и покажу, как это сделать.

Страницы, которые нужно скрыть от поиска

Давайте без лишних слов приступим к делу. Вот список страниц, которые вам лучше скрыть от поисковых систем, чтобы они не появлялись в поисковой выдаче.

Страницы с приватными данными

Защита контента от прямого поискового трафика обязательна, если страница содержит личную информацию. Это страницы с конфиденциальной информацией о компании, информация об альфа-продуктах, данные профилей пользователей, личная переписка, платежные данные и т.д.Поскольку частный контент должен быть скрыт от кого-либо, кроме владельца данных, Google (или любая поисковая система) не должен делать эти страницы видимыми для более широкой аудитории.

Страницы входа

Если форма входа размещена не на главной, а на отдельной странице, нет необходимости показывать эту страницу в поисковой выдаче. Такие страницы не несут никакой дополнительной ценности для пользователей, которую можно считать малосодержательным контентом.

Страницы благодарности

Это страницы, которые видят пользователи после успешного действия на сайте, будь то покупка, регистрация или что-то еще.Эти страницы также, вероятно, будут иметь мало контента и практически не несут никакой дополнительной ценности для пользователей.

Версия страницы для печати или чтения

Содержимое страниц этого типа дублирует содержание основных страниц вашего веб-сайта. Это означает, что эти страницы будут рассматриваться как полное дублирование содержимого при сканировании и индексировании.

Страницы похожих товаров

Это обычная проблема для крупных веб-сайтов электронной коммерции, на которых много товаров, отличающихся только размером или цветом.Google может не определить разницу между ними и рассматривать их как дубликаты контента.

Результаты внутреннего поиска

Когда пользователи переходят на ваш сайт из поисковой выдачи, они ожидают, что перейдут по вашей ссылке и найдут ответ на свой запрос. Не очередная внутренняя поисковая выдача с кучей ссылок. Поэтому, если ваши внутренние результаты поисковой выдачи попадут в индекс, они, скорее всего, не принесут ничего, кроме низкого времени пребывания на странице и высокого показателя отказов.

Страницы биографии автора в блогах с одним автором

Если в вашем блоге все сообщения написаны одним автором, то страница с биографией автора является чистой копией главной страницы блога.

Страницы формы подписки

Подобно страницам входа в систему, формы подписки обычно не содержат ничего, кроме формы для ввода ваших данных для подписки. Таким образом, страница а) пуста, б) не представляет ценности для пользователей. Вот почему вы должны запретить поисковым системам вытягивать их в поисковую выдачу.

Страницы в разработке

Эмпирическое правило: страницы, которые находятся в процессе разработки, должны быть недоступны для сканеров поисковых систем, пока они не будут полностью готовы для посетителей.

Зеркальные страницы

Зеркальные страницы — это идентичные копии ваших страниц на отдельном сервере или в другом месте. Они будут считаться техническими дубликатами, если будут просканированы и проиндексированы.

Специальные предложения и рекламные целевые страницы

Специальные предложения и рекламные страницы должны быть видны пользователям только после того, как они выполнят какие-либо специальные действия или в течение определенного периода времени (специальные предложения, события и т. д.). После завершения мероприятия эти страницы не должны быть видны никому, в том числе поисковым системам.

Как скрыть страницу из поиска

А теперь вопрос: как скрыть все вышеперечисленные страницы от надоедливых пауков и сохранить остальную часть вашего сайта видимой, как и должно быть?

При настройке инструкций для поисковых систем у вас есть два варианта. Вы можете ограничить сканирование или ограничить индексирование страницы.

Ограничение сканирования с помощью файлов robots.txt

Возможно, самый простой и прямой способ запретить поисковым роботам доступ к вашим страницам — это создать файл robots.текстовый файл. Файлы robots.txt позволяют заблаговременно исключить нежелательный контент из результатов поиска. С помощью этого файла вы можете ограничить доступ к одной странице, целому каталогу или даже одному изображению или файлу.

Как это работает
Создание файла robots.txt

Процедура довольно проста. Вы просто создаете файл .txt со следующими полями:

  • User-agent:  – в этой строке вы идентифицируете рассматриваемый сканер;
  • Disallow:  – две или более строк, которые предписывают указанным поисковым роботам не получать доступ к определенным частям сайта.

Обратите внимание, что некоторые поисковые роботы (например, Google) также поддерживают дополнительное поле с именем Разрешить: . Как следует из названия, Разрешить: позволяет явно перечислить файлы/папки, которые можно сканировать.

Вот некоторые основные примеры файлов robots.txt.

*  в строке User-agent  означает, что всем ботам поисковых систем предписывается не сканировать ни одну из страниц вашего сайта, что обозначается / .Скорее всего, это то, чего вы предпочли бы избежать, но теперь вы поняли идею.

В приведенном выше примере вы запрещаете роботу изображений Google сканировать ваши изображения в выбранном каталоге.

Дополнительные инструкции о том, как писать такие файлы вручную, можно найти в руководстве разработчика Google.

А вот процесс создания robots.txt можно полностью автоматизировать — существует множество инструментов, способных создавать такие файлы. Например, WebSite Auditor может легко скомпилировать файл robots.txt для вашего сайта.

Когда вы запустите инструмент и создадите проект для своего веб-сайта, перейдите к Структура сайта > Страницы , щелкните значок гаечного ключа и выберите Robots.txt .

Затем нажмите Добавить правило и укажите инструкции. Выберите поискового робота и каталог или страницу, для которых вы хотите ограничить сканирование.

Когда вы закончите со всеми настройками, нажмите Далее , чтобы инструмент сгенерировал файл robots.txt, который затем можно загрузить на свой веб-сайт.

Чтобы просмотреть ресурсы, заблокированные для сканирования, и убедиться, что вы не запретили сканирование ничего, перейдите к Структура сайта > Аудит сайта и проверьте раздел Ресурсы, индексация которых запрещена :

Примечание: Хотя файл robots.txt запрещает поисковым системам сканировать определенные страницы, URL-адреса этих страниц могут быть проиндексированы, если другие страницы указывают на них с описательным текстом.URL-адрес с ограниченным доступом может отображаться в результатах поиска без описания, поскольку контент не будет сканироваться и индексироваться.

Также имейте в виду, что протокол robots.txt носит исключительно рекомендательный характер. Это не блокировка страниц вашего сайта, а больше похоже на «Личное — не входить». Robots.txt может предотвратить доступ «законопослушных» ботов (например, ботов Google, Yahoo! и Bing) к вашему контенту. Однако вредоносные боты просто игнорируют его и все равно просматривают ваш контент. Таким образом, существует риск того, что ваши личные данные могут быть удалены, скомпилированы и повторно использованы под видом добросовестного использования.Если вы хотите, чтобы ваш контент был на 100% безопасным, вам следует ввести более безопасные меры (например, добавить регистрацию на сайте, скрыть контент под паролем и т. д.).

Распространенные ошибки

Вот наиболее распространенные ошибки, которые допускают люди при создании файлов robots.txt. Внимательно прочитайте эту часть.

1) Использование прописных букв в имени файла. Имя файла — robots.txt. Период. Не Robots.txt и не ROBOTS.txt

2) Не размещать роботов.txt в основной каталог

3)  Заблокировать весь ваш веб-сайт (если вы этого не хотите), оставив инструкцию запрета следующим образом

4)  Неверное указание user-agent

5)  Упоминание нескольких каталогов в одной строке запрета. Для каждой страницы или каталога нужна отдельная строка

6)  Оставить строку user-agent пустой

7) Список всех файлов в каталоге.Если вы скрываете весь каталог, вам не нужно утруждать себя перечислением каждого отдельного файла

8)  Без упоминания о строке инструкций по запрету

9)  Не указана карта сайта внизу файла robots.txt

10)  Добавление инструкций noindex в файл

Ограничение индексации с помощью метатега robots и тега X-Robots

Использование метатега robots noindex или X-Robots-tag позволит роботам поисковых систем сканировать и получать доступ к вашей странице, но предотвратит попадание страницы в индекс, т.е.е. от появления в результатах поиска.

Теперь давайте рассмотрим каждый вариант поближе.

Роботы noindex метатег

Метатег robots noindex помещен в исходный код HTML вашей страницы (раздел ). Процесс создания этих тегов требует совсем немного технических знаний и может быть легко выполнен даже младшим SEO-специалистом.

Как это работает

Когда бот Google получает страницу, он видит метатег noindex и не включает эту страницу в веб-индекс.Страница по-прежнему сканируется и существует по указанному URL-адресу, но не будет отображаться в результатах поиска независимо от того, как часто на нее ссылаются с любой другой страницы.

Примеры метатегов роботов

Добавление этого метатега в исходный код HTML вашей страницы указывает роботу поисковой системы проиндексировать эту страницу и все ссылки, идущие с этой страницы.

Изменяя «follow» на «nofollow», вы влияете на поведение робота поисковой системы.Вышеупомянутая конфигурация тега указывает поисковой системе индексировать страницу, но не переходить ни по каким ссылкам, размещенным на ней.

Этот метатег указывает роботу поисковой системы игнорировать страницу, на которой он размещен, но переходить по всем размещенным на нем ссылкам.

Этот тег, размещенный на странице, означает, что ни страница, ни ссылки, содержащиеся на этой странице, не будут отслеживаться или индексироваться.

Примечание: Упомянутые выше атрибуты nofollow и follow не имеют ничего общего с rel=nofollow. Это две разные вещи. Rel=nofollow применяется к ссылкам, чтобы предотвратить передачу ссылочного веса. Упомянутый выше атрибут nofollow применяется ко всей странице и не позволяет сканерам переходить по ссылкам.

X-Robots-тег

Помимо метатега robots noindex, вы можете скрыть страницу, настроив ответ HTTP-заголовка с X-Robots-Tag со значением noindex или none .

Помимо страниц и элементов HTML, X-Robots-Tag позволяет не индексировать отдельные PDF-файлы, видео, изображения или любые другие файлы, отличные от HTML, где использование метатегов robots невозможно.

Как это работает

Механизм почти такой же, как у тега noindex. Как только поисковый бот заходит на страницу, ответ HTTP возвращает заголовок X-Robots-Tag с инструкциями noindex. Страница или файл все еще сканируются, но не отображаются в результатах поиска.

Примеры тегов X-Robots

Это наиболее распространенный пример HTTP-ответа с указанием не индексировать страницу.

HTTP/1.1 200 ОК

(…)

X-Robots-Tag: noindex

(…)

Вы можете указать тип поискового бота, если вам нужно скрыть свою страницу от определенных ботов. В приведенном ниже примере показано, как скрыть страницу от любой другой поисковой системы, кроме Google, и запретить всем ботам переходить по ссылкам на этой странице:

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

Если вы не укажете тип робота, инструкции будут действительны для всех типов сканеров.

Чтобы ограничить индексирование определенных типов файлов на всем веб-сайте, вы можете добавить инструкции ответа X-Robots-Tag в файлы конфигурации программного обеспечения веб-сервера вашего сайта.

Вот как вы ограничиваете все PDF-файлы на сервере на базе Apache:

<Файлы ~ "\.pdf$">

  Набор заголовков X-Robots-Tag «noindex, nofollow»

А это те же самые инструкции для NGINX:

расположение ~* \.пдф$ {

  add_header X-Robots-Tag «noindex, nofollow»;

}

Чтобы ограничить индексацию одного элемента, для Apache используется следующий шаблон:

# файл htaccess должен быть помещен в каталог соответствующего файла.

<Файлы "unicorn.pdf">

  Набор заголовков X-Robots-Tag «noindex, nofollow»

И вот как вы ограничиваете индексацию одного элемента для NGINX:

местоположение = /secrets/unicorn.пдф {

  add_header X-Robots-Tag «noindex, nofollow»;

}

Роботы с тегом noindex и X-Robots-Tag

Хотя тег robots noindex кажется более простым решением для ограничения индексации ваших страниц, в некоторых случаях использование X-Robots-Tag для страниц является лучшим вариантом :

  • Не индексировать весь поддомен или категорию. X-Robots-Tag позволяет вам делать это массово, избегая необходимости помечать каждую страницу одну за другой;
  • Нет индексирования файла, отличного от HTML.В этом случае X-Robots-Tag — не лучший, а единственный вариант, который у вас есть.

Тем не менее, помните, что только Google точно следует инструкциям X-Robots-Tag. Что касается остальных поисковых систем, то нет гарантии, что они правильно интерпретируют тег. Например, Seznam вообще не поддерживает теги x-robots. Поэтому, если вы планируете, чтобы ваш веб-сайт отображался в различных поисковых системах, вам необходимо использовать тег robots noindex во фрагментах HTML.

Распространенные ошибки

Наиболее распространенные ошибки пользователей при работе с тегами noindex следующие:

1) Добавление неиндексируемой страницы или элемента в файл robots.текстовый файл. Robots.txt ограничивает сканирование, поэтому поисковые боты не будут заходить на страницу и видеть директивы noindex. Это означает, что ваша страница может быть проиндексирована без содержания и по-прежнему отображаться в результатах поиска.

Чтобы проверить, не попали ли какие-либо из ваших папок с тегом noindex в файл robots.txt, проверьте столбец Инструкции для роботов в разделе Структура сайта > Страницы WebSite Auditor.

Примечание: Не забудьте включить экспертные опции и снять флажок «Следовать за роботами».txt при сборке проекта, чтобы инструмент видел инструкции, но не следовал им.

2) Использование прописных букв в директивах тегов. Согласно Google, все директивы чувствительны к регистру, поэтому будьте осторожны.

Особые случаи

Теперь, когда с основными проблемами индексации контента все более-менее понятно, перейдем к нескольким нестандартным случаям, заслуживающим отдельного упоминания.

1)  Убедитесь, что страницы, которые вы не хотите индексировать, не включены в вашу карту сайта .На самом деле карта сайта — это способ сообщить поисковым системам, куда идти в первую очередь при сканировании вашего сайта. И нет причин просить поисковых ботов посещать страницы, которые вы не хотите, чтобы они видели.

2) Тем не менее, если вам нужно деиндексировать страницу, которая уже присутствует в карте сайта, не удаляйте страницу из карты сайта, пока она не будет повторно просканирована и деиндексирована поисковыми роботами. В противном случае деиндексация может занять больше времени, чем ожидалось.

3) Защитите паролем страницы, содержащие личные данные. Защита паролем — самый надежный способ скрыть конфиденциальный контент даже от тех ботов, которые не следуют инструкциям robots.txt. Поисковые системы не знают ваших паролей, поэтому они не попадут на страницу, не увидят конфиденциальный контент и не выведут страницу в поисковую выдачу.

4) Чтобы поисковые роботы не индексировали саму страницу, но переходили по всем ссылкам на странице и индексировали контент по этим URL-адресам , настройте следующую директиву

Это обычная практика для внутренних страниц результатов поиска, которые содержат много полезных ссылок, но сами по себе не несут никакой ценности.

5) Для конкретного робота могут быть указаны ограничения индексации. Например, вы можете заблокировать свою страницу от новостных ботов, ботов с изображениями и т. д. Имена ботов можно указывать для любого типа инструкций, будь то файл robots.txt, метатег robots или X-Robots-Tag.

6) Не используйте тег noindex в A/B тестах , когда часть ваших пользователей перенаправляется со страницы A на страницу B. Так как если noindex сочетается с 301 (постоянной) переадресацией, то поисковые системы получат следующее сигналы:

  • Страница A больше не существует, так как она навсегда перемещена на страницу B;
  • Страница B не должна быть проиндексирована, так как она имеет тег noindex.

В результате обе страницы A и B исчезают из индекса.

Чтобы правильно настроить A/B-тест, используйте переадресацию 302 (временную) вместо 301. Это позволит поисковым системам сохранить старую страницу в индексе и вернуть ее, когда вы закончите тест. Если вы тестируете несколько версий страницы (A/B/C/D и т. д.), используйте тег rel=canonical, чтобы отметить каноническую версию страницы, которая должна попасть в поисковую выдачу.

7) Используйте тег noindex, чтобы скрыть временные целевые страницы. Если вы скрываете страницы со специальными предложениями, рекламные страницы, скидки или любой другой тип контента, который не должен утекать, то запрещать этот контент с помощью файла robots.txt — не лучшая идея. Поскольку сверхлюбопытные пользователи все еще могут просматривать эти страницы в вашем файле robots.txt. В этом случае лучше использовать noindex , чтобы случайно не скомпрометировать «секретный» URL публично.

Подводя итог

Теперь вы знаете основы того, как найти и скрыть определенные страницы вашего сайта от внимания ботов поисковых систем.И, как видите, процесс на самом деле несложный. Только не смешивайте несколько типов инструкций на одной странице и будьте внимательны, чтобы не скрыть страницы, которые должны отображаться в поиске.

Я что-то пропустил? Делитесь своими вопросами в комментариях.

Руководство для новичков по блокировке URL-адресов в файле Robots.txt| Ignite Visibility

Robots.txt, также известный как исключение роботов, является ключом к предотвращению сканирования роботами поисковых систем ограниченных областей вашего сайта.

В этой статье я расскажу об основах блокировки URL-адресов в файле robots.txt.

Что мы рассмотрим:

Что такое файл robots.txt?

Robots.txt — это текстовый файл, который веб-мастера создают, чтобы научить роботов сканировать страницы веб-сайта и сообщать поисковым роботам, следует ли обращаться к файлу или нет.

Вы можете заблокировать URL-адреса в robots txt, чтобы Google не индексировал личные фотографии, специальные предложения с истекшим сроком действия или другие страницы, к которым вы не готовы предоставить пользователям доступ.Использование его для блокировки URL-адреса может помочь в усилиях по SEO.

Это может решить проблемы с дублирующимся контентом (однако могут быть лучшие способы сделать это, которые мы обсудим позже). Когда робот начинает сканирование, он сначала проверяет наличие файла robots.txt, препятствующего просмотру определенных страниц.

Когда следует использовать файл Robots.txt?

Вам нужно будет использовать его, если вы не хотите, чтобы поисковые системы индексировали определенные страницы или контент. Если вы хотите, чтобы поисковые системы (например, Google, Bing и Yahoo) имели доступ и индексировали весь ваш сайт, вам не нужен файл robots.текстовый файл. Хотя стоит упомянуть, что в некоторых случаях люди используют его, чтобы указать пользователям на карту сайта.

Однако, если другие сайты ссылаются на страницы вашего веб-сайта заблокированы, поисковые системы могут по-прежнему индексировать URL-адреса, и в результате они могут по-прежнему отображаться в результатах поиска. Чтобы этого не произошло, используйте тег x-robots , метатег noindex или rel canonical на соответствующую страницу.

Эти типы файлов помогают веб-сайтам в следующем:

  • Сохраняйте конфиденциальность частей сайта — подумайте о страницах администратора или песочнице вашей команды разработчиков.
  • Предотвращение дублирования контента в результатах поиска.
  • Избегайте проблем с индексацией
  • блокировка URL-адреса
  • Запретить поисковым системам индексировать определенные файлы, такие как изображения или PDF-файлы
  • Управляйте сканирующим трафиком и предотвращайте появление медиафайлов в поисковой выдаче.
  • Используйте его, если вы размещаете платную рекламу или ссылки, требующие специальных инструкций для роботов.

Тем не менее, если на вашем сайте нет областей, которые вам не нужно контролировать, то она вам и не нужна.В рекомендациях Google также упоминается, что вы не должны использовать robots.txt для блокировки веб-страниц из результатов поиска.

Причина в том, что если другие страницы ссылаются на ваш сайт с описательным текстом, ваша страница все равно может быть проиндексирована в силу ее появления на этом стороннем канале. Директивы Noindex или страницы, защищенные паролем, являются лучшим выбором.

Начало работы с robots.txt

Прежде чем вы начнете собирать файл, убедитесь, что у вас его еще нет.Чтобы найти его, просто добавьте «/robots.txt» в конце любого доменного имени — www.examplesite.com/robots.txt. Если он у вас есть, вы увидите файл со списком инструкций. В противном случае вы увидите пустую страницу.

Далее проверьте, блокируются ли какие-либо важные файлы

Зайдите в консоль поиска Google, чтобы узнать, блокирует ли ваш файл какие-либо важные файлы. Тестер robots.txt покажет, мешает ли ваш файл поисковым роботам Google получить доступ к определенным частям вашего веб-сайта.

Также стоит отметить, что вам может вообще не понадобиться файл robots.txt. Если у вас относительно простой веб-сайт и вам не нужно блокировать определенные страницы для тестирования или защиты конфиденциальной информации, вы можете обойтись без него. И — туториал останавливается.

Настройка файла robots.txt

Эти файлы можно использовать по-разному. Однако их основное преимущество заключается в том, что маркетологи могут разрешить или запретить несколько страниц одновременно без необходимости доступа к коду каждой страницы вручную.

Все файлы robots.txt приведут к одному из следующих результатов:

  • Полное разрешение — весь контент может быть просканирован
  • Полный запрет — сканирование контента невозможно. Это означает, что вы полностью блокируете доступ поисковых роботов Google к любой части вашего веб-сайта.
  • Условное разрешение — правила, изложенные в файле, определяют, какое содержимое открыто для сканирования, а какое заблокировано. Если вам интересно, как запретить URL-адрес, не блокируя сканеры на всем сайте, вот оно.

Если вы хотите настроить файл, процесс на самом деле довольно прост и включает в себя два элемента: «пользовательский агент», который является роботом, к которому применяется следующий блок URL-адресов, и «запретить», который является URL-адресом. вы хотите заблокировать. Эти две строки рассматриваются как одна запись в файле, а это означает, что в одном файле может быть несколько записей.

Как заблокировать URL-адреса в Robots txt:

Для строки user-agent вы можете указать конкретного бота (например, Googlebot) или применить текстовый блок URL ко всем ботам, используя звездочку.Ниже приведен пример пользовательского агента, блокирующего всех ботов.

Агент пользователя: *

Во второй строке записи, disallow, перечислены определенные страницы, которые вы хотите заблокировать. Чтобы заблокировать весь сайт, используйте косую черту. Для всех остальных записей сначала используйте косую черту, а затем укажите страницу, каталог, изображение или тип файла

.

Disallow: / блокирует весь сайт.

Запретить: /bad-directory/  блокирует как каталог, так и все его содержимое.

Запретить: /secret.html  блокирует страницу.

После выбора пользовательского агента и запрета одна из ваших записей может выглядеть так:

User-agent: *
Disallow: /bad-directory/

Просмотреть другие примеры записей из Google Search Console .

Как сохранить файл

  1. Сохраните файл, скопировав его в текстовый файл или блокнот и сохранив как «robots.текст».
  2. Обязательно сохраните файл в каталог самого высокого уровня вашего сайта и убедитесь, что он находится в корневом домене с именем, точно совпадающим с «robots.txt».
  3. Добавьте свой файл в каталог верхнего уровня кода вашего веб-сайта для простого сканирования и индексации.
  4. Убедитесь, что ваш код имеет правильную структуру: Агент пользователя → Запретить → Разрешить → Хост → Карта сайта. Это позволяет поисковым системам получать доступ к страницам в правильном порядке.
  5. Сделайте так, чтобы все URL-адреса, которые вы хотите «Разрешить:» или «Запретить:», располагались на отдельной строке.Если в одной строке появится несколько URL-адресов, поисковым роботам будет сложно их разделить, и у вас могут возникнуть проблемы.
  6. Всегда используйте строчные буквы для сохранения файла, так как имена файлов чувствительны к регистру и не содержат специальных символов.
  7. Создайте отдельные файлы для разных субдоменов. Например, «example.com» и «blog.example.com» имеют отдельные файлы с собственным набором директив.
  8. Если вы должны оставить комментарий, начните с новой строки и предварите комментарий символом #.# сообщает поисковым роботам, что не следует включать эту информацию в свою директиву.

Как проверить свои результаты

Проверьте свои результаты в своей учетной записи Google Search Console, чтобы убедиться, что боты сканируют нужные вам части сайта и блокируют URL-адреса, которые вы не хотите, чтобы поисковики видели.

  1. Сначала откройте инструмент тестирования и просмотрите файл на наличие предупреждений или ошибок.
  2. Затем введите URL-адрес страницы вашего веб-сайта в поле внизу страницы.
  3. Затем выберите в раскрывающемся меню агент пользователя , который вы хотите имитировать.
  4. Нажмите ТЕСТ.
  5. Кнопка  ПРОВЕРКА  должна читаться как ПРИНЯТО или ЗАБЛОКИРОВАНО, , что указывает на то, заблокирован ли файл поисковыми роботами или нет.
  6. При необходимости отредактируйте файл и повторите проверку.
  7. Помните, что любые изменения, внесенные вами в инструменте тестирования GSC, не будут сохранены на вашем веб-сайте (это симуляция).
  8. Если вы хотите сохранить изменения, скопируйте новый код на свой веб-сайт.

Имейте в виду, что это будет тестировать только Googlebot и другие пользовательские агенты, связанные с Google. Тем не менее, использование тестера очень важно, когда дело доходит до SEO. Видите ли, если вы решите использовать файл, обязательно правильно его настройте. Если в вашем коде есть какие-либо ошибки, робот Googlebot может не проиндексировать вашу страницу или вы можете непреднамеренно заблокировать важные страницы из поисковой выдачи.

Наконец, убедитесь, что вы не используете его вместо реальных мер безопасности. Пароли, брандмауэры и зашифрованные данные — лучшие варианты защиты вашего сайта от хакеров, мошенников и посторонних глаз.

Завершение

Готовы начать работу с robots.txt? Здорово!

Если у вас есть какие-либо вопросы или вам нужна помощь в начале работы, дайте нам знать!

поисковых роботов | Руководство пользователя Adobe Commerce 2.4

Конфигурация Commerce включает параметры для создания и управления инструкциями для поисковых роботов и ботов, которые индексируют ваш сайт. Если запрос robots.txt достигает Commerce (а не физического файла), он динамически перенаправляется на контроллер robots.Инструкции — это директивы, которые распознаются и соблюдаются большинством поисковых систем.

По умолчанию файл robots.txt, созданный Commerce, содержит инструкции для поискового робота, чтобы избежать индексирования определенных частей сайта, содержащих файлы, которые используются внутри системы. Вы можете использовать настройки по умолчанию или определить свои собственные инструкции для всех или для определенных поисковых систем. В Интернете есть много статей, подробно изучающих эту тему.

Пример: Пользовательские инструкции

Разрешает полный доступ

  
 1
2
 
 Агент пользователя:*
Запретить:
 

Запрещает доступ ко всем папкам

  
 1
2
 
 Агент пользователя:*
Запретить: /
 

Инструкции по умолчанию

  
 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
 Агент пользователя: *
Запретить: /index.php/
Запретить: /*?
Запретить: /checkout/
Запретить: /приложение/
Запретить: /lib/
Запретить: /*.php$
Запретить: /pkginfo/
Запретить: /отчет/
Запретить: /var/
Запретить: /каталог/
Запретить: /клиент/
Запретить: /sendfriend/
Запретить: /обзор/
Запретить: /*SID=
 

Настройка

robots.txt

  1. На боковой панели Admin выберите Content > Design > Configuration .

  2. Найдите конфигурацию Global в первой строке сетки и нажмите Изменить .

    Глобальная конфигурация дизайна

  3. Прокрутите вниз и разверните раздел Поисковые роботы и выполните следующие действия:

    Роботы поисковых систем

    • Задайте для параметра Роботы по умолчанию одно из следующих значений:

      ИНДЕКС, СЛЕДУЙТЕ Указывает поисковым роботам проиндексировать сайт и проверить изменения позже.
      НОИНДЕКС, СЛЕДУЙТЕ Предписывает поисковым роботам не индексировать сайт, а проверять изменения позже.
      ИНДЕКС, NOFOLLOW Указывает поисковым роботам проиндексировать сайт один раз, но не проверять позже изменения.
      НОИНДЕКС, НОФОЛЛОУ Предписывает поисковым роботам избегать индексации сайта и не проверять позже изменения.
    • При необходимости введите пользовательские инструкции в поле Изменить пользовательскую инструкцию файла robots.txt . Например, пока сайт находится в разработке, вы можете запретить доступ ко всем папкам.

    • Чтобы восстановить инструкции по умолчанию, нажмите «Восстановить настройки по умолчанию».

  4. По завершении нажмите Сохранить конфигурацию.

Как запретить поисковым системам сканировать сайт WordPress

Недавно один из наших пользователей спросил нас, как они могут запретить поисковым системам сканировать и индексировать свой сайт WordPress? Существует множество сценариев, когда вы хотите запретить поисковым системам сканировать ваш веб-сайт или отображать его в результатах поиска.В этой статье мы покажем вам, как запретить поисковым системам сканировать сайт WordPress.

Почему и кто захочет остановить поисковые системы

Для большинства веб-сайтов поисковые системы являются крупнейшим источником трафика. Вы можете спросить, зачем кому-то блокировать поисковые системы?

В начале многие люди не знают, как создать локальную среду разработки или промежуточный сайт. Если вы разрабатываете свой веб-сайт на общедоступном доменном имени, вы, вероятно, не хотите, чтобы Google индексировал вашу страницу в режиме разработки или обслуживания.

Есть также много людей, которые используют WordPress для создания частных блогов, и они не хотят, чтобы они индексировались в результатах поиска, потому что они частные.

Кроме того, некоторые люди используют WordPress для управления проектами или внутренней сети, и вы бы не хотели, чтобы ваши внутренние документы были общедоступными.

Во всех вышеперечисленных ситуациях вы, вероятно, не хотите, чтобы поисковые системы индексировали ваш сайт.

Распространенным заблуждением является то, что если у меня нет ссылок, указывающих на мой домен, то поисковые системы, вероятно, никогда не найдут мой сайт.Это не совсем так.

Существует множество способов, с помощью которых поисковые системы могут найти веб-сайт, на который есть ссылка в другом месте. Например:

  1. Ваше доменное имя могло ранее принадлежать кому-то другому, и сейчас у них все еще есть некоторые ссылки, указывающие на ваш веб-сайт.
  2. Некоторые результаты поиска домена могут быть проиндексированы с вашей ссылкой на них.
  3. Есть буквально тысячи страниц со списком доменных имен, ваш сайт может появиться на одной из них.

В сети происходит много всего, и большинство из них не под вашим контролем.Однако ваш веб-сайт по-прежнему находится под вашим контролем, и вы можете запретить поисковым системам индексировать ваш веб-сайт или следить за ним.

Видеоруководство

Подписаться на WPBeginner

Если вам не нравится видео или вам нужны дополнительные инструкции, продолжайте читать.

Блокировка поисковых систем от сканирования и индексирования вашего сайта WordPress

WordPress поставляется со встроенной функцией, которая позволяет запретить поисковым системам индексировать ваш сайт.Все, что вам нужно сделать, это посетить Настройки » Чтение и установить флажок рядом с параметром Видимость в поисковых системах.

Когда этот флажок установлен, WordPress добавляет эту строку в заголовок вашего сайта:

  

WordPress также изменяет файл robots.txt вашего сайта и добавляет в него следующие строки:

Пользовательский агент: *
Запретить: /
 

Эти строки просят роботов (сканеров) не индексировать ваши страницы.Тем не менее, поисковые системы могут принять этот запрос или проигнорировать его. Несмотря на то, что большинство поисковых систем уважают это, некоторые страницы или случайные изображения с вашего сайта могут быть проиндексированы.

Как сделать так, чтобы ваш сайт не отображался в результатах поиска?

Настройки видимости WordPress по умолчанию предписывают поисковым системам не индексировать ваш сайт. Однако поисковые системы могут в конечном итоге просканировать и проиндексировать страницу, файл или изображение с вашего веб-сайта.

Единственный способ убедиться, что поисковые системы вообще не индексируют и не сканируют ваш сайт, — это защитить паролем весь ваш сайт WordPress на уровне сервера.

Это означает, что когда кто-либо пытается получить доступ к вашему веб-сайту, его просят предоставить имя пользователя и пароль еще до того, как он доберется до WordPress. Сюда входят и поисковые системы. При неудачном входе в систему им отображается ошибка 401, и боты отворачиваются. Вот как защитить паролем весь сайт WordPress.

Метод 1: защита паролем всего сайта с помощью cPanel

Если ваш хостинг-провайдер WordPress предлагает доступ к cPanel для управления вашей учетной записью хостинга, вы можете защитить весь свой сайт с помощью cPanel.Все, что вам нужно сделать, это войти в свою панель управления cPanel, а затем щелкнуть значок «Защита паролем каталогов» в разделе «Безопасность».

Далее вам нужно будет выбрать папку, в которую вы установили WordPress. Обычно это папка public_html.

Если у вас есть несколько сайтов WordPress, установленных в каталоге public_html, вам нужно щелкнуть значок папки, чтобы просмотреть и выбрать папку для веб-сайта, который вы хотите защитить паролем.

На следующем экране необходимо ввести имя защищенного каталога и нажать кнопку «Сохранить».

Ваша информация будет сохранена, и cPanel перезагрузит страницу. После этого необходимо добавить авторизованного пользователя, введя логин и пароль.

Вот и все, вы успешно добавили защиту паролем на свой сайт WordPress.

Теперь каждый раз, когда пользователь или поисковая система посещают ваш веб-сайт, им будет предложено ввести имя пользователя и пароль, которые вы создали ранее, для просмотра сайта.

Метод 2: Защита WordPress паролем с помощью плагина

Если вы используете управляемый хостинг WordPress, иногда у вас нет доступа к cPanel.

В этом случае у вас есть возможность использовать различные плагины WordPress для защиты паролем вашего сайта. Ниже приведены два самых популярных решения:

  1. SeedProd — это плагин № 1, который появится в ближайшее время, и плагин режима обслуживания для WordPress, используемый на более чем 800 000 веб-сайтов.Он поставляется с полным контролем доступа и функциями разрешений, которые вы можете использовать, чтобы скрыть свой сайт от всех, включая поисковые системы. У нас есть пошаговое руководство для SeedProd.
  2. Защищено паролем — это очень простой способ защитить паролем ваш сайт WordPress с помощью одного пароля (без необходимости создания пользователя). Ознакомьтесь с нашим пошаговым руководством о том, как защитить сайт WordPress паролем.

Мы надеемся, что эта статья помогла вам запретить поисковым системам сканировать или индексировать ваш сайт WordPress.