Robots.txt для WordPress — как настроить правильно в 2021 году?
В интернете можно найти много публикаций на тему, как составить лучший (или даже самый лучший) файл robots.txt для WordPress. При этом в ряде таких популярных статей многие правила не объясняются и, как мне кажется, вряд ли понимаются самими авторами. Единственный обзор, который я нашел и который действительно заслуживает внимания, — это статья в блоге wp-kama. Однако и там я нашел не совсем корректные рекомендации. Понятно, что на каждом сайте будут свои нюансы при составлении файла robots.txt. Но существует ряд общих моментов для совершенно разных сайтов, которые можно взять за основу. Robots.txt, опубликованный в этой статье, можно будет просто копировать и вставлять на новый сайт и далее дорабатывать в соответствии со своими нюансами.
Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.
Правильный Robots.txt для WordPress
Действительно самый лучший robots.txt, который я видел на данный момент, это роботс, предложенный в блоге wp-kama. Ряд директив и комментариев я возьму из его образца + внесу свои корректировки. Корректировки коснутся нескольких правил, почему так напишу ниже. Кроме того, напишем индивидуальные правила для всех роботов, для Яндекса и для Google.
Ниже привожу короткий и расширенный вариант. Короткий не включает отдельные блоки для Google и Яндекса. Расширенный уже менее актуален, т.к. теперь нет принципиальных особенностей между двумя крупными поисковиками: обеим системам нужно индексировать файлы скриптов и изображений, обе не поддерживают директиву Host. Тем не менее, если в этом мире снова что-то изменится, либо вам потребуется все-таки как-то по-отдельному управлять индексацией файлов на сайте Яндексом и Гугл, сохраню в этой статье и второй вариант.
Еще раз обращаю внимание, что это базовый файл robots.txt. В каждом конкретном случае нужно смотреть реальный сайт и по-необходимости вносить корректировки. Поручайте это дело опытным специалистам!
Короткий вариант (оптимальный)
User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru
Расширенный вариант (отдельные правила для Google и Яндекса)
User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru
В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.
Ошибочные рекомендации других блогеров для Robots.txt на WordPress
- Использовать правила только для User-agent: *
Для многих поисковых систем не требуется индексация JS и CSS для улучшения ранжирования, кроме того, для менее значимых роботов вы можете настроить большее значение Crawl-Delay и снизить за их счет нагрузку на ваш сайт. - Прописывание Sitemap после каждого User-agent
Это делать не нужно. Один sitemap должен быть указан один раз в любом месте файла robots.txt - Закрыть папки wp-content, wp-includes, cache, plugins, themes
Это устаревшие требования. Однако подобные советы я находил даже в статье с пафосным названием «Самые правильный robots для WordPress 2018»! Для Яндекса и Google лучше будет их вообще не закрывать. Или закрывать «по умному», как это описано выше. - Закрывать страницы тегов и категорий
Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика - Закрывать от индексации страницы пагинации /page/
Это делать не нужно. Для таких страниц настраивается тег rel=»canonical», таким образом, такие страницы тоже посещаются роботом и на них учитываются расположенные товары/статьи, а также учитывается внутренняя ссылочная масса. - Прописать Crawl-Delay
Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей. - Ляпы
Некоторые правила я могу отнести только к категории «блогер не подумал». Например:Disallow: /20
— по такому правилу не только закроете все архивы, но и заодно все статьи о 20 способах или 200 советах, как сделать мир лучше 🙂
Спорные рекомендации других блогеров для Robots.txt на WordPress
- Комментарии
Некоторые ребята советуют закрывать от индексирования комментарииDisallow: /comments
иDisallow: */comment-*
. - Открыть папку uploads только для Googlebot-Image и YandexImages
User-agent: Googlebot-Image
Совет достаточно сомнительный, т.к. для ранжирования страницы необходима информация о том, какие изображения и файлы размещены на ней.
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
Спасибо за ваше внимание! Если у вас возникнут вопросы или предложения, пишите в комментариях!
Оцените статью
Загрузка…
Друзья, буду благодарен за ваши вопросы, дополнения и рекомендации по теме статьи. Пишите ниже в комментариях.
Буду благодарен, если поставите оценку статье.
Полное руководство по файлу robots.txt для WordPress
Чтобы быть уверенным, что ваш сайт хорошо ранжируется в результатах поисковых систем (Search Engine Result Pages – SERPs), вам нужно сделать его наиболее важные страницы удобным для поиска и индексирования «роботоми» («ботами») поисковых движков. Хорошо структурированный файл robots.txt поможет направить этих ботов на страницы, которые вы хотите проиндексировать (и пропустить другие).
В этой статье мы собираемся раскрыть такие вопросы:
- Что такое файл robots.txt и почему он важен
- Где находится robots.txt для WordPress
- Как создать файл robots.txt
- Какие правила должны быть в файле robots.txt для WordPress
- Как проверить файл robots.txt и отправить его в консоль Google Search.
К концу нашего обсуждения у вас будет всё необходимое для настройки отличного файла robots.txt для вашего сайт на WordPress. Начнём!
Что такое файл
robots.txt для WordPress и зачем он нужен
Когда вы создаёте новый сайт, поисковые движки будут отправлять своих миньонов (или роботов) для сканирования и создания карты всех его страниц. Таким образом, они будут знать, какие страницы показывать как результат, когда кто-либо ищет по относящимся ключевым словам. На базовом уровне это достаточно просто.
Проблема состоит в том, что современные сайты содержат множество других элементом, кроме страниц. WordPress позволяет вам устанавливать, например, плагины, которые часто имеют свои каталоги. Вы не хотите показывать это в результатах поисковой выдачи, поскольку они не соответствуют содержимому.
Что делает файл robots.txt, так это обеспечивает ряд указаний для поисковых роботов. Он говорит им: «Посмотрите здесь, но не заходите в эти области!». Этот файл может настолько подробным, на сколько вы захотите и его очень просто создавать, даже если вы не технический волшебник.
На практике, поисковые движки всё равно будут сканировать ваш сайт, даже если вы не создадите файл robots.txt. Однако, не создавать его является весьма нерациональным шагом. Без этого файла вы оставите роботам для индексации весь контент вашего сайта и они решать, что можно показывать все части вашего сайта, даже те, которые бы вы хотели скрыть от общего доступа.
Более важный момент, без файла robots.txt, у вас будет очень много обращений для сканирования ботами вашего сайта. Это негативно скажется на его производительности. Даже если посещаемость вашего сайта ещё невелика, скорость загрузки страницы – это то, что всегда должно быть в приоритете и на высшем уровне. В конце концов, есть всего несколько моментов, которые люди не любят больше, чем медленная загрузка сайтов.
Где находится файл robots.txt для WordPress
Когда вы создаёте сайт на WordPress, файл robots.txt создаётся автоматически и располагается в вашем главном каталоге на сервере. Например, если ваш сайт расположен здесь: yourfakewebsite.com, вы сможете найти его по адресу yourfakewebsite.com/robots.txt и увидеть примерно такой файл:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
Это пример самого простого базового файла robots.txt. Переводя на понятный человеку язык, правая часть после User-agent: объявляет, для каких роботов предназначены правила ниже. Звёздочка означает, что правило универсальное и применяется для всех ботов. В данном случае файл говорит ботам, что им нельзя сканировать каталоги wp-admin и wp-includes. Смыл этих правил заключается в том, что данные каталоги содержат очень много файлов, требующих защиты от общего доступа.
Конечно же, вы можете добавить больше правил в свой файл. Прежде чем вы это сделаете, вам нужно понять, что это виртуальный файл. Обычно, WordPress robots.txt находится в корневом(root) каталоге, который часто называется public_html или www (или по названию имени вашего сайта):
Надо отметить, что файл robots.txt для WordPress, устанавливаемый по умолчанию, не доступен для вас ни из какого каталога. Он работает, но если вы захотите внести изменения, вам нужно создать ваш собственный файл и загрузить его в корневой каталог в качестве замены.
Мы рассмотрим несколько способов создания файла robots.txt для WordPress за минуту. А сейчас давайте обсудим, как определить, какие правила нужно включить в файл.
Какие правила нужно включить в файл robots.txt для WordPress
В предыдущем разделе мы видели пример генерируемого WordPress файла robots.txt. Он включает в себя только два коротких правила, но для большинства сайтов их достаточно. Давайте взглянем на два разных файла robots.txt и рассмотрим, что каждый из них делает.
Вот наш первый пример файла robots.txt WordPress:
User-agent: * Allow: / # Disallowed Sub-Directories Disallow: /checkout/ Disallow: /images/ Disallow: /forum/
Этот файл robots.txt создан для форума. Поисковые системы обычно индексируют каждое обсуждение на форуме. В зависимости от того, какая тематика вашего форума, вы можете захотеть запретить индексацию. Так, например, Google не будет индексировать сотни коротких обсуждения пользователей. Вы также можете установить правила, указывающие на конкретную ветвь форума, чтобы исключить её, и позволить поисковым системам обходить остальные.
Вы также заметили строку, которая начинается с Allow: / вверху файла. Эта строка говорит ботам, что они могут сканировать все страницы вашего сайта, кроме установленных ниже ограничений. Также вы заметили, что мы установили эти правила как универсальные (со звёздочкой), как было в виртуальном файле WordPress robots.txt.
Давайте проверим другой пример файла WordPress robots.txt:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ User-agent: Bingbot Disallow: /
В этом файле мы устанавливаем те же правила, что идут в WordPress по умолчанию. Хотя мы также добавляем новый набор правил, которые блокируют поисковых роботов Bing от сканирования нашего сайта. Bingbot, как можно понять, это имя робота.
Вы можете совершенно конкретно задавать поисковых роботов отдельного движка для ограничения/разрешения их доступа. На практике, конечно, Bingbot очень хороший (даже если не такой хороший, как Googlebot). Однако, есть и много вредоносных роботов.
Плохой новостью является то, что они далеко не всегда следуют инструкциям из файла robots.txt (они же всё же работают как террористы). Следует иметь в виду, что, хотя большинство роботов будут использовать указания, представленные в этом файле, но вы не можете принудить их это делать. Мы просто хорошо просим.
Если глубже вникнуть в тему, вы найдёте много предложений того, что разрешать и что блокировать на своём сайте WordPress. Хотя, из нашего опыта, меньше правил часто лучше. Вот пример рекомендованного вида вашего первого файла robots.txt:
User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/
Традиционно WordPress любит закрывать каталоги wp-admin и wp-includes. Однако, это уже не является лучшим решением. Плюс, если вы добавляете мета тэги для своих изображений с целью продвижения (SEO), нету смысла указывать ботам не отслеживать содержимое этих каталогов. Вместо этого, два правила выше обеспечивают основные потребности большинства сайтов.
Что содержится в вашем файле robots.txt будет зависеть от особенностей и потребностей вашего сайта. Поэтому смело проводите больше исследований!
Как создать файл robots.txt для WordPress (3 способа)
Как только вы решили сделать свой файл robots.txt, всё что осталось – это найти способ его создать. Вы можете редактировать robots.txt в WordPress, используя плагин или вручную. В этом разделе мы обучим вас применению двух наиболее популярных плагинов для выполнения этой задачи и обсудим, как создать и загрузить файл вручную. Поехали!
1. Использование плагина Yoast SEO
Yoast SEO вряд ли требует представления. Это наиболее известный SEO-плагин для WordPress, он позволяет вам улучшать ваши записи и страницы для лучшего использования ключевых слов. Кроме этого, он также оценит ваш контент с точки зрения удобности чтения, а это повысит аудиторию поклонников.
Наша команда является почитателями плагина Yoast SEO благодаря его простоте и удобству. Это относится и к вопросу создания файла robots.txt. Как только вы установите и активируете свой плагин, перейдите во вкладку SEO › Инструменты в своей консоли и найдите настройку Редактор файлов:
Нажав на эту ссылку, вы можете редактировать файл .htaccess не покидая админ консоль. Здесь же есть кнопка Создать файл robots.txt:
После нажатия на кнопку во вкладке будет отображён новый редактор, где вы можете напрямую редактировать ваш файл robots.txt. Обратите внимание, что Yoast SEO устанавливает свои правила по умолчанию, которые перекрывают правила существующего виртуального файла robots.txt.
После удаления или добавления правил нажимайте кнопку Сохранить изменения в robots.txt для вступления их в силу:
Это всё! Давайте теперь посмотрим на другой популярный плагин, который позволит нам выполнить эту же задачу.
2. Применение плагина All in One SEO Pack
Плагин All in One SEO Pack – ещё один прекрасный плагин WordPress для настройки SEO. Он включает в себя большинство функций плагина Yoast SEO, но некоторые предпочитают его потому что он более легковесный. Что касается файла robots.txt, его создать в этом плагине также просто.
После установки плагина, перейдите на страницу All in One SEO > Управление модулями в консоли. Внутри вы найдёте опцию Robots.txt с хорошо заметной кнопкой Activate внизу справа. Нажмите на неё:
Теперь в меню All in One SEO будет отображаться новая вкладка Robots.txt. Если вы нажмёте на этот пункт меню, вы увидите настройки для добавления новых правил в ваш файл, сохраните внесённые изменения или удалите всё:
Обратите внимание, что вы не можете напрямую изменять файл robots.txt при помощи этого плагина. Содержимое файла будет неактивным, что видно по серому фону поля, в отличие от Yoast SEO, который позволяет вам вводить всё, что вы хотите:
Но, так как добавление новых правил очень простая процедура, то этот факт не должен расстроить вас. Более важный момент, что All in One SEO Pack также включает функцию, которая поможет вам блокировать «плохих» ботов, её вы можете найти во вкладке All in One SEO:
Это всё, что вам нужно сделать, если вы выбрали этот способ. Теперь давайте поговорим о том, как вручную создать файл robots.txt, если вы не хотите устанавливать дополнительный плагин только для этой задачи.
3. Создание и загрузка файла
robots.txt для WordPress по FTP
Что может быть проще, чем создание текстового файла txt. Всё, что вам нужно сделать, открыть свой любимый редактор (как, например, Notepad или TextEdit) и ввести несколько строк. Потом вы сохраняете файл, используя любое имя и расширение txt. Это буквально займёт несколько секунд, поэтому вы вполне можете захотеть создать robots.txt для WordPress без использования плагина.
Вот быстрый пример такого файла:
Мы сохранили этот файл локально на компьютере. Как только вы сделали свой собственный файл вам нужно подключиться к своему сайту по FTP. Если вы не совсем понимаете, как это сделать, у нас есть руководство, посвящённое этому – использование удобного для новичков клиента FileZilla.
После подключения к своему сайту перейдите в каталог public_html. Теперь, всё что вам нужно сделать это загрузить файл robots.txt со своего компьютера на сервер. Вы можете это сделать либо нажав правой кнопкой мыши на файле в локальной FTP навигаторе или простым перетаскиванием мышью:
Это займёт всего несколько секунд. Как вы видите, этот способ не сложнее использования плагина.
Как проверит WordPress robots.txt и отправить его в Консоль Google Search
Теперь, когда ваш файл WordPress robots.txt создан и загружен на сайт, вы можете проверить его на ошибки в Консоли Google Search. Search Console – это набор инструментов Google, призванных помочь вам отслеживать то, как ваш контент появляется в результатах поиска. Один из таких инструментов проверяет robots.txt, его вы можете использовать перейдя в своей консоли в раздел Инструмент проверки файла robots.txt:
Здесь вы найдёте поле редактора, где вы можете добавить код своего файла WordPress robots.txt, и нажать Отправить в правом нижнем углу. Консоль Google Search спросит вас, хотите ли вы использовать новый код или загрузить файл с вашего сайта. Выберите опцию, которая говорит Ask Google to Update для публикации вручную:
Теперь платформа проверит ваш файл на ошибки. Если будет найдена ошибка, информация об этом будет показана вам.
Вы ознакомились с несколькими примерами файл robots.txt WordPress, и теперь у вас есть ещё больше шансов создать свой идеальный!
Заключение
Чтобы быть уверенным, что ваш сайт представлен наилучшим образом для поисковых роботов стоит позаботиться о том, чтобы для них был открыт необходимый контент. Как мы увидели, хорошо настроенный файл robots.txt WordPress поможет показать роботам, каким образом лучше взаимодействовать с вашим сайтом. Таким образом, они помогут тем, кто ищет получить более релевантный и полезный контент.
У вас остались вопросы о том, как редактировать robots.txt в WordPress? Напишите нам в разделе комментариев ниже!
Елена имеет профессиональное техническое образование в области информационных технологий и опыт программирования на разных языках под разные платформы и системы. Более 10 лет посвятила сфере веб, работая с разными CMS, такими как: Drupal, Joomla, Magento и конечно же наиболее популярной в наши дни системой управления контентом – WordPress. Её статьи всегда технически выверены и точны, будь то обзор для WordPress или инструкции по настройке вашего VPS сервера.
Что такое robots.txt и как его настроить
Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.
По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге.
Что такое robots.txt
Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации.
Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.
Зачем нам нужен этот файл
Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:
- дубли страниц;
- служебные файлы;
- файлы, которые бесполезны для посетителей;
- страницы с неуникальным контентом.
Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано.
Настройка директивов robots.txt
Директивы — это правила для роботов. И эти правила пишем мы.
User-agent
Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него.
Пример:
User-agent: Yandex
Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:
User-agent: *
Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.
Disallow и Allow
С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.
Пример:
Allow: /category/
Даем рекомендацию, чтобы индексировались категории.
Disallow: /
А вот так от индексации будет закрыт весь сайт.
Также существуют операторы, которые помогают уточнить наши правила.
- * – звездочка означает любую последовательность символов (либо отсутствие символов).
- $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.
Disallow: /category/$ # закрываем только страницу категорий Disallow: /category/* # закрываем все страницы в папке категории
Sitemap
Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.
Пример:
Sitemap: http://site.ru/sitemap.xml
Директива host уже устарела, поэтому о ней говорить не будем.
Crawl-delay
Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.
Пример:
Crawl-delay: 10
Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.
Clean-param
Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы.
Пример:
Clean-Param: utm_source&utm_medium&utm_campaign
Как закрыть сайт от индексации
Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:
User-agent: * Disallow: /
Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.
Проверка файла robots
Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.
Переходим в инструмент, вводим домен и содержимое вашего файла.
Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.
Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.
Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется.
Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.
Правильный robots.txt для WordPress
Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами.
User-agent: * Disallow: /cgi-bin # папка на хостинге Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp- Disallow: /xmlrpc.php # файл WordPress API Disallow: /*? # поиск Disallow: /?s= # поиск Allow: /*.css # стили Allow: /*.js # скрипты Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)
Правильный robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Sitemap: https://site.ru/sitemap.xml
Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.
Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.
Правильный файл robots.txt для WordPress 2020: настройка
Автор Анита Арико На чтение 15 мин. Просмотров 2.1k. Опубликовано
Чтобы нужные страницы сайта попадали в индекс поисковых систем, важно правильно настроить файл robots.txt. Этот документ дает рекомендации поисковым роботам, какие страницы обрабатывать, а какие — нет: например, от индексации можно закрыть панель управления сайтом или страницы, которые находятся в разработке. Рассказываем, как правильно настроить robots.txt, если ваш сайт сделан на WordPress.
Что такое robots.txt и для чего он нужен?
Чтобы понять, какие страницы есть на сайте, поисковики «напускают» на него роботов: они сканируют сайт и передают перечень страниц в поисковую систему. robots.txt — это текстовый файл, в котором содержатся указания о том, какие страницы можно, а какие нельзя сканировать роботам.
Обычно на сайте есть страницы, которые не должны попадать в выдачу: например, это может быть административная панель, личные страницы пользователей или временные страницы сайта. Кроме этого, у поисковых роботов есть определенный лимит сканирования страниц (кроулинговый бюджет) — за раз они могут обработать только ограниченное их количество.
Проведем аналогию: представим сайт в виде города, а страницы в виде домов. По дорогам между домов ездят роботы и записывают информацию о каждом доме (индексируют страницы и добавляют в базу). Роботы получают ограниченное количество топлива в день — например, 10 литров на объезд города в день. Это топливо — кроулинговый бюджет, который выделяют поисковые системы на обработку сайта.
На маленьких проектах, 500-1000 страниц, кроулинговый бюджет не сказывается критично, но на интернет-магазинах, маркетплейсах, больших сервисах могут возникнут проблемы. Если они спроектированы неверно, то робот может месяцами ездить по одному кварталу (сканировать одни и те же страницы), но не заезжать в отдаленные районы. Чем больше проект, тем больший кроулинговый бюджет выделяют поисковики, но это не поможет, если дороги сделаны неудобно и вместо прямой дороги в 1 км нужно делать крюк в 15 км.
Правильный robots.txt помогает решить часть этих проблем.
Разные поисковые системы по-разному обрабатывают robots.txt: например, Google может включить в индекс даже ту страницу, которая запрещена в этом файле, если найдет ссылку на такую страницу на страницах сайта. Яндекс же относится к robots.txt как к руководству к действию — если страница запрещена для индексации в файле, она не будет включена в результаты поиска, но с момента запрета может пройти до двух недель до исключения из индекса. Таким образом, правильная настройка robots.txt в 99% случаев помогает сделать так, чтобы в индекс попадали только те страницы, которые вы хотите видеть в результатах поиска.
Кроме этого, robots.txt может содержать технические сведения о сайте: например, главное зеркало, местоположение sitemap.xml или параметры URL-адресов, передача которых не влияет на содержимое страницы.
Файл robots.txt рекомендует роботам поисковых систем, как правильно обрабатывать страницы сайта, чтобы они попали в выдачу.
Где находится файл robots.txt?
По умолчанию в WordPress нет файла robots.txt. При установке WordPress создает виртуальный файл robots.txt с таким содержимым:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Такая настройка говорит поисковым роботам следующее:
User-agent: * — для любых поисковых роботов
Disallow: /wp-admin/ — запретить обрабатывать /wp-admin/
Allow: /wp-admin/admin-ajax.php — разрешить обрабатывать элементы сайта, которые загружаются через AJAX
Этот файл не получится найти в папках WordPress — он работает, но физически его не существует. Поэтому, чтобы настроить robots.txt, сначала нужно его создать.
Robots.txt должен находиться в корневой папке (mysite.ru/robots.txt), чтобы роботы любых поисковых систем могли его найти.
Как редактировать и загружать robots.txt
Есть несколько способов создать файл robots.txt — либо сделать его вручную в текстовом редакторе и разместить в корневом каталоге (папка самого верхнего уровня на сервере), либо воспользоваться специальными плагинами для настройки файла.
Как создать robots.txt в Блокноте
Самый простой способ создать файл robots.txt — написать его в блокноте и загрузить на сервер в корневой каталог.
Лучше не использовать стандартное приложение — воспользуйтесь специальными редакторы текста, например, Notepad++ или Sublime Text, которые поддерживают сохранение файла в конкретной кодировке. Дело в том, что поисковые роботы, например, Яндекс и Google, читают только файлы в UTF-8 с определенными переносами строк — стандартный Блокнот Windows может добавлять ненужные символы или использовать неподдерживаемые переносы.
Говорят, что это давно не так, но чтобы быть уверенным на 100%, используйте специализированные приложения.
Рассмотрим создание robots.txt на примере Sublime Text. Откройте редактор и создайте новый файл. Внесите туда нужные настройки, например:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://mysite.ru/sitemap.xml
Где mysite.ru — домен вашего сайта.
После того, как вы записали настройки, выберите в меню File ⟶ Save with Encoding… ⟶ UTF-8 (или Файл ⟶ Сохранить с кодировкой… ⟶ UTF-8).
Назовите файл “robots.txt” (обязательно с маленькой буквы).
Файл готов к загрузке.
Загрузить robots.txt через FTP
Для того, чтобы загрузить созданный robots.txt на сервер через FTP, нужно для начала включить доступ через FTP в настройках хостинга.
После этого скопируйте настройки доступа по FTP: сервер, порт, IP-адрес, логин и пароль (не совпадают с логином и паролем для доступа на хостинг, будьте внимательны!).
Чтобы загрузить файл robots.txt вы можете воспользоваться специальным файловым менеджером, например, FileZilla или WinSCP, или же сделать это просто в стандартном Проводнике Windows. Введите в поле поиска “ftp://адрес_FTP_сервера”.
После этого Проводник попросит вас ввести логин и пароль.
Введите данные, которые вы получили от хостинг-провайдера на странице настроек доступа FTP. После этого в Проводнике откроются файлы и папки, расположенные на сервере. Скопируйте файл robots.txt в корневую папку. Готово.
Загрузить или создать robots.txt на хостинге
Если у вас уже есть готовый файл robots.txt, вы можете просто загрузить его на хостинг. Зайдите в файловый менеджер панели управления вашим хостингом, нажмите на кнопку «Загрузить» и следуйте инструкциям (подробности можно узнать в поддержке у вашего хостера.
Многие хостинги позволяют создавать текстовые файлы прямо в панели управления хостингом. Для этого нажмите на кнопку «Создать файл» и назовите его “robots.txt” (с маленькой буквы).
После этого откройте его во встроенном текстовом редакторе хостера. Если вам предложит выбрать кодировку для открытия файла — выбирайте UTF-8.
Добавьте нужные директивы и сохраните изменения.
Плагины для редактирования robots.txt
Гораздо проще внести нужные директивы в robots.txt с помощью специальных плагинов для редактирования прямо из панели управления WordPress. Самые популярные из них — ClearfyPro, Yoast SEO и All in One SEO Pack.
Clearfy Pro
Этот плагин отлично подходит для начинающих: даже если вы ничего не понимаете в SEO, Clearfy сам создаст правильный и валидный файл robots.txt. Кроме этого, плагин предлагает пошаговую настройку самых важных для поисковой оптимизации функций, так что на первых этапах развития сайта этого будет достаточно.
Чтобы настроить robots.txt, в панели управления WordPress перейдите в пункт Настройки ⟶ Clearfy ⟶ SEO.
Переключите «Создайте правильный robots.txt» в положение «Вкл». Clearfy отобразит правильные настройки файла robots.txt. Вы можете дополнить эти настройки, например, запретив поисковым роботам индексировать папку /wp-admin/.
После внесения настроек нажмите на кнопку «Сохранить» в верхнем правом углу.
Yoast SEO
Плагин Yoast SEO хорош тем, что в нем есть много настроек для поисковой оптимизации: он напоминает использовать ключевые слова на странице, помогает настроить шаблоны мета-тегов и предлагает использовать мета-теги Open Graph для социальных сетей.
С его помощью можно отредактировать и robots.txt.
Для этого зайдите в раздел Yoast SEO ⟶ Инструменты ⟶ Редактор файлов.
Здесь вы сможете отредактировать robots.txt и сохранить его, не заходя на хостинг. По умолчанию Yoast SEO не предлагает никаких настроек для файла, так что его придется прописать вручную.
После изменений нажмите на кнопку «Сохранить изменения в robots.txt».
All in One SEO Pack
Еще один мощный плагин для управления SEO на WordPress. Чтобы отредактировать robots.txt через All in One SEO Pack, сначала придется активировать специальный модуль. Для этого перейдите на страницу плагина в раздел «Модули» и нажмите «Активировать» на модуле «robots.txt».
После подключения модуля перейдите на его страницу. С помощью него можно разрешать или запрещать для обработки конкретные страницы и группы страниц для разных поисковых роботов, не прописывая директивы вручную.
Правильный и актуальный robots.txt в 2020 году
Для того, чтобы создать правильный файл robots.txt, нужно знать, что означает каждая из директив в файле, записать их в правильном порядке и проверить файл на валидность.
Что означают указания в файле robots.txt?
User-agent — поисковой робот
В строке User-agent указывается, для каких роботов написаны следующие за этой строкой указания. Например, если вы хотите запретить индексацию сайта для поисковых роботов Bing, но разрешить для Google и Яндекс, это будет выглядеть примерно так:
User-agent: Googlebot Disallow: User-agent: Yandex User-agent: Bingbot | Для робота Google Запретить: ничего Для робота Яндекс Для робота Bing |
На практике необходимость разграничивать указания для разных поисковых роботов встречается довольно редко. Гораздо чаще robots.txt пишут для всех роботов сразу. Это указывается через звездочку:
User-agent: *
У поисковых систем есть и специальные роботы — например, бот YandexImages обходит изображения, чтобы выдавать их в поиске Яндекса по картинкам, а Googlebot-News собирает информацию для выдаче в Google Новостях. Полные списки ботов можно найти в справке поисковых систем — введите в поиск «поисковые роботы [название ПС]».
Disallow
Эта директива сообщает поисковым роботам, что страница или целый список страниц запрещены для обхода. Важно понимать, что указание в robots.txt не гарантирует, что страница не попадет в выдачу — если ссылка на запрещенную в файле страницу встречается на разрешенных страницах сайта, поисковик все равно может включить его в индекс.
Если вы хотите разрешить поисковым роботам обрабатывать все страницы сайта, оставьте это указание пустым.
User-agent: *
Disallow:
Если вам нужно запретить для индексации несколько страниц или директорий, указывайте каждую из них отдельно:
User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Disallow: /index2.html
Allow
Это указание разрешает ботам поисковиков сканировать определенные страницы. Обычно это используют, когда нужно закрыть целую директорию, но разрешить обрабатывать часть страниц.
User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php
Большинство поисковых систем обрабатывают в первую очередь более точные правила (например, с указанием конкретных страниц), а затем — более широкие. Например:
User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php
Такой файл robots.txt укажет роботам, что не нужно сканировать все страницы из папки «catalog», кроме «best-offers.html».
Host
Указание host говорит поисковым роботам, какое из зеркал сайта является главным. Например, если сайт работает через защищенный протокол https, в robots.txt стоит это указать:
User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Эта директива уже устарела, и сегодня ее использовать не нужно. Если она есть в вашем файле сейчас, лучше ее удалить — есть мнение, что она может негативно сказываться на продвижении.
Sitemap
Этот атрибут — еще один способ указать поисковым роботам, где находится карта сайта. Она нужна для того, чтобы поисковик смог добраться до любой страницы сайта в один клик вне зависимости от сложности его структуры.
User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay
Такой параметр помогает установить задержку для обработки сайта поисковыми роботами. Это может быть полезно, если сайт расположен на слабом сервере и вы не хотите, чтобы боты перегружали его запросами: передайте в crawl-delay время, которое должно проходить между запросами роботов. Время передается в секундах.
User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay: 10
На самом деле современные поисковые роботы и так делают небольшую задержку между запросами, так что прописывать это явно стоит только в том случае, если сервер очень слабый.
Clean-param
Эта настройка пригодится, чтобы скрыть из поиска страницы, в адресе которых есть параметры, не влияющие на ее содержание. Звучит сложно, так что объясняем на примере.
Допустим, на сайте есть категория «Смартфоны» и она расположена по адресу mysite.ru/catalog/smartphones.
У категории есть фильтры, которые передаются с помощью GET-запроса. Предположим, пользователь отметил в фильтре «Производитель: Apple, Samsung». Адрес страницы поменялся на
mysite.ru/catalog/smartphones/?manufacturer=apple&manufacturer=samsung,
где ?manufacturer=apple&manufacturer=samsung — параметры, которые влияют на содержимое страницы. Логично, что такие страницы можно и нужно выводить в поиске — эту страницу со включенным фильтром можно продвигать по запросу вроде «смартфоны эппл и самсунг».
А теперь представим, что пользователь перешел в категорию «Смартфоны» по ссылке, которую вы оставили во ВКонтакте, добавив к ней UTM-метки, чтобы отследить, эффективно ли работает ваша группа.
mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale
В такой ссылке параметры ?utm_source=vk&utm_medium=post&utm_campaign=sale не влияют на содержимое страницы — mysite.ru/catalog/smartphones/ и mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale будут выглядеть одинаково.
Чтобы помочь поисковым роботам понять, на основании каких параметров содержимое меняется, а какие не влияют на контент страницы, и используется настройка Clean-param.
User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Clean-param: utm_campaign /
Clean-param: utm_medium /
Clean-param: utm_source /
С помощью такой директивы вы укажете поисковым роботам, что при обработке страниц для поисковой выдачи нужно удалять из ссылок такие параметры, как utm_campaign, utm_medium и utm_source.
Как проверить robots.txt
Для того, чтобы проверить валидность robots.txt, можно использовать инструменты вебмастера поисковых систем. Инструмент проверки robots.txt есть у Google в Search Console — для его использования понадобится авторизация в Google и подтверждение прав на сайт, для которого проверяется файл.
Похожий инструмент для проверки robots.txt есть и у Яндекса, и он даже удобнее, потому что не требует авторизации.
Эти приложения помогают понять, как поисковый робот видит файл: если какие-то из директив прописаны в нем неверно, инструмент проверки их проигнорирует либо предупредит о них.
Чего стоит избегать при настройке robots.txt?
Будьте внимательны: хоть robots.txt непосредственно и не влияет на то, окажется ли ваш сайт в выдаче, этот файл помогает избежать попадания в индекс тех страниц, которые должны быть скрыты от пользователей. Все, что робот не сможет интерпретировать, он проигнорирует.
Вот несколько частых ошибок, которые можно допустить при настройке.
Не указан User-Agent
Или указан после директивы, например:
Disallow: /wp-admin/
User-agent: *
Такую директиву робот прочитает так:
Disallow: /wp-admin/— так, это не мне, не читаю
User-agent: * — а это мне… Дальше ничего? Отлично, обработаю все страницы!
Любые указания к поисковым роботам должны начинаться с директивы User-agent: название_бота.
User-agent: GoogleBot
Disallow: /wp-admin/
User-agent: Yandex
Disallow: /wp-admin/
Или для всех сразу:
User-agent: *
Disallow: /wp-admin/
Несколько папок в Disallow
Если вы укажете в директиве Disallow сразу несколько директорий, неизвестно, как робот это прочтет.
User-agent: *
Disallow: /wp-admin/ /catalog/ /temp/ /user/ — “/wp-admin/catalog/temp/user/”? “/catalog/ /user”? “??????”?
По своему разумению он может обработать такую конструкцию как угодно. Чтобы этого не случилось, каждую новую директиву начинайте с нового Disallow:
User-agent: *
Disallow: /wp-admin/
Disallow: /catalog/
Disallow: /temp/
Disallow: /user/
Регистр в названии файла robots.txt
Поисковые роботы смогут прочитать только файл с названием “robots.txt”. “Robots.txt”, “ROBOTS.TXT” или “R0b0t.txt” они просто проигнорируют.
Резюме
- robots.txt — файл с рекомендациями, как обрабатывать страницы сайта, для поисковых роботов.
- В WordPress по умолчанию нет robots.txt, но есть виртуальный файл, который запрещает ботам сканировать страницы панели управления.
- Создать robots.txt можно в блокноте и загрузить его на хостинг в корневой каталог.
- Файл robots.txt должен быть создан в кодировке UTF-8.
- Проще создать robots.txt с помощью плагинов для WordPress — Clearfy Pro, Yoast SEO, All in One SEO Pack или других SEO-плагинов.
- С помощью robots.txt можно создать директивы для разных поисковых роботов, сообщить о главном зеркале сайта, передать адрес sitemap.xml или указать параметры URL-адресов, которые не влияют на содержимое страницы.
- Проверить валидность robots.txt можно с помощью инструментов от Google и Яндекс.
- Все директивы файла robots.txt, которые робот не сможет интерпретировать, он проигнорирует.
Как сделать robots.txt для WordPress.Создаем правильный robots.txt для сайта на WordPress
Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt, который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет.
Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет.
Создание файла robots.txt
1. Создайте обычный текстовый файл с названием robots в формате .txt.
2. Добавьте в него следующую информацию :
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= Host: site.com Sitemap: http://site.com/sitemap.xml
3. Замените в в текстовом файле строчку site.com на адрес Вашего сайта.
4. Сохраните изменения и загрузите файл robots.txt (с помощью FTP) в корневую папку Вашего сайта.
5. Готово.
Для просмотра и скачки примера, нажмите кнопку ниже и сохраните файл (Ctrl + S на клавиатуре).
Скачать пример файла robots.txt
Разбираемся в файле robots.txt (директивы)
Давайте теперь более детально разберем, что именно и зачем мы добавили в файл robots.txt.
User-agent — директива, которая используется для указания названия поискового робота. С помощью этой директивы можно запретить или разрешить поисковым роботам посещать Ваш сайт. Примеры:
Запрещаем роботу Яндекса просматривать папку с кэшем:
User-agent: Yandex Disallow: /wp-content/cache
Разрешаем роботу Bing просматривать папку themes (с темами сайта):
User-agent: bingbot Allow: /wp-content/themes
Allow и Disallow — разрешающая и запрещающая директива. Примеры:
Разрешим боту Яндекса просматривать папку wp-admin:
User-agent: Yandex Allow: /wp-admin
Запретим всем ботам просматривать папку wp-content:
User-agent: * Disallow: /wp-content
В нашем robots.txt мы не используем директиву Allow, так как всё, что не запрещено боту с помощью Disallow — по умолчанию будет разрешено.
Host — директива, с помощью которой нужно указать главное зеркало сайта, которое и будет индексироваться роботом.
Sitemap — используя эту директиву, нужно указать путь к карте сайта. Напомню, что карта сайта является очень важным инструментом при продвижении сайта! Обязательно указывайте её в этой директиве!
Если остались какие-то вопросы — задавайте их в комментарий. Если же информации в этом уроке для Вас оказалось недостаточно, рекомендую почитать подробнее о всех директивах и способах их использования перейдя по этой ссылке.
Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt, который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет. Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет. Создание файла robots.txt 1. Создайте обычный текстовый файл с названием robots в формате .txt. 2. Добавьте в него следующую информацию : User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes…
Создание и настройка robots.txt
Рейтинг: 4.51 ( 33 голосов )
100
Правильный robots.txt для WordPress | Как сделать robots.txt
Вебмастера и маркетологи знают насколько важна индексация сайта поисковыми системами. Именно поэтому они делают все возможное, чтобы помочь поисковикам типа Google и Yandex правильно сканировать и индексировать свои сайты.
Большое количество времени и ресурсов тратятся на внутреннюю и внешнюю оптимизацию, такую как контент, ссылки, теги, оптимизация изображений и структуры сайта.
Всё это играет огромную роль в продвижении. Однако если вы забыли сделать техническую оптимизацию сайта, если вы не слышали о файлах robots.txt и sitemap.xml могут возникнуть проблемы с правильным сканированием и индексацией вашего сайта.
В этой статье я объясню как правильно настраивать и использовать файл robots.txt и мета-тег robots. Итак, начнем!
к содержанию ↑
Что такое robots.txt
Robots.txt – это текстовый файл, который используется в качестве инструкции для роботов поисковых систем (также известных как сканеры, боты или пауки), как сканировать и индексировать страницы сайта.
Простыми словами, robots.txt говорит роботам, какие страницы или файлы сайта мы хотим видеть в поиске, а какие нет.
В идеале файл robots.txt размещается в корневом каталоге вашего веб-сайта (https://site.com/robots.txt), чтобы роботы могли сразу получить доступ к его инструкциям.
Если вы используете CMS WordPress, то вы сможете увидеть ваш файл по вышеуказанному адресу, однако вы не найдете сам файл в общей папке с вашим сайтом. Это потому что WordPress автоматически создает виртуальный файл robots.txt (с параметрами по-умолчанию), если не находит данный файл в корневом каталоге сайта.
Виртуальный файл robots.txt CMS WordPress не решает всех необходимых задач, в связи с этим крайне желательно написать свой.
к содержанию ↑
Для чего нужен robots.txt
Файл robots.txt нужен, для того чтобы запретить поисковым роботам посещать определенные разделы вашего сайта, например:
- страницы пагинации;
- страницы с результатами поиска на сайте;
- административные файлы;
- служебные страницы;
- ссылки с utm-метками;
- данные о параметрах сортировки, фильтрации, сравнении;
- страница личного кабинета и т.п.
Важно! Файл robots.txt не является обязательным к исполнению поисковыми роботами. В связи с этим, если вы хотите на 100% быть уверенными в том что какая-либо из страниц вашего сайта не появится в поисковой выдаче – используйте мета-тег robots.
Согласно Cправке Google файл robots.txt не предназначен для того, чтобы запрещать показ веб-страниц в результатах поиска Google.
Если вы не хотите чтобы какая-то страница вашего сайта появилась в поиске вставьте в <head> страницы атрибут noindex:
<meta name=“robots” content=“noindex,nofollow”>
к содержанию ↑
Как редактировать robots txt
Редактировать файл robots.txt в CMS WordPress можно двумя способами. Добавить необходимый код в файл functions.php, или при помощи плагина.
В нашей компании мы предпочитаем второй способ.
Устанавливаем плагин Virtual Robots.txt из репозитория CMS WordPress, открываем его в админ. панеле во вкладке Настройки. В открывшееся поле плагина вносим необходимый код, жмем кнопку Save и вуаля – ваш файл robots.txt готов.
к содержанию ↑
Правильный robots.txt для CMS WordPress
Взял с сайта seogio.ru и немного подкорректировал. Вот что получилось:
User-agent: * # общие правила для роботов всех поисковых систем Disallow: /cgi-bin # служебная папка для хранения серверных скриптов Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск по сайту Disallow: *&s= # поиск по сайту Disallow: /search/ # поиск по сайту Disallow: /author/ # архив автора Disallow: /users/ # архив пользователей Disallow: */trackback # трекбеки, уведомления в комментариях о ссылке на веб-документ Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads Allow: /*/*.js # открываем файлы скриптов js Allow: /*/*.css # открываем фалы css Allow: /wp-*.png # разрешаем индексировать изображения Allow: /wp-*.jpg # разрешаем индексировать изображения Allow: /wp-*.jpeg # разрешаем индексировать изображения Allow: /wp-*.gif # разрешаем индексировать гифки Allow: /wp-admin/admin-ajax.php # разрешаем ajax # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz
к содержанию ↑
Проверка robots.txt
Если файл robots.txt настроен неправильно это может привести к множественным ошибкам в индексации сайта. Проверить правильность настройки вашего robots.txt можно с помощью бесплатного инструмента Google Robots Testing Tool
Выбираем наш сайт:
Вводим в строку путь к нашему файлу robots.txt и жмем кнопку Проверить:
В результате не должно быть ошибок и предупреждений и файл должен быть Доступен для роботов:
Если файл robots.txt настроен правильно, это значительно ускорит процесс индексации вашего сайта.
Как создать правильный Robots txt для WordPress
👍 Научим создавать сайты на WordPress бесплатно за 11 уроков. Подробнее →
Чтобы помочь поисковым системам правильно индексировать ваш блог, нужно сделать правильный файл Robots txt для WordPress. Посмотрим как его создать и чем наполнить.
Что дает Robots.txt?
Он нужен для поисковых систем, для правильной индексации ими веб-ресурса. Содержимое файла “говорит” поисковому роботу, какие страницы нужно показывать в поиске, а какие скрыть. Это позволяет управлять контентом в поисковой выдаче.
Наполнять robots.txt нужно уже на этапе разработки сайта. Его изменения вступают в силу не сразу. Может пройти неделя или несколько месяцев.
Где находится Robots?
Этот обычный тестовый файл лежит в корневом каталоге сайта. Его можно получить по адресу
https://site.ru/robots.txt
Движок изначально Роботс не создает. Это нужно делать вручную или пользоваться инструментами, которые создают его автоматически.
Не могу найти этот файл
Если по указанному адресу содержимое файл отображается, но на сервере его нет, то значит он создан виртуально. Поисковику все равно. Главное, чтобы он был доступен.
Из чего состоит
Из 4 основных директив:
- User-agent — правила поисковым роботам.
- Disalow — запрещает доступ.
- Allow — разрешает.
- Sitemap — полный URL-адрес карты XML.
Правильный robots.txt для ВордПресс
Вариантов много. Инструкции на каждом сайте отличаются.
Вот пример правильного Роботс, в котором учтены все разделы сайта. Коротко разберем директивы.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /license.txt
Disallow: /readme.html
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom
Disallow: */feed
Disallow: */rss
Disallow: /author/
Disallow: /?
Disallow: /*?
Disallow: /?s=
Disallow: *&s=
Disallow: /search
Disallow: *?attachment_id=
Allow: /*.css
Allow: /*.js
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Sitemap: https://site.ru/sitemap_index.xml
В первой строке указывается, что ресурс доступен для всех поисковых роботов (краулеров).
Директивы Disallow запрещают выдавать в поиске служебные каталоги и файлы, закэшированные страницы, разделы авторизации и регистрации, ленты RSS (Feed), страницы авторов, поиска и вложений.
Allow разрешают добавлять в индекс скрипты, стили, файлы загрузок, тем и плагинов.
Последняя – это адрес XML-карты.
Как создать robots.txt для сайта
Рассмотрим несколько методов.
Вручную
Это можно сделать например, в Блокноте (если локальный сервер) или через FTP-клиент (на хостинге).
Также этого можно добиться ВП-плагинами. Разберем лучшие из них.
Clearfy Pro
Clearfy Pro создает виртуальный файл. Для этого:
- Перейдите в админ-меню Clearfy Pro.
- На вкладке SEO задействуйте опцию Создать правильный robots.txt.
- Заполните содержимое файла.
- Сохраните изменения.
Всегда можно отредактировать содержимое Robots. Просто измените/дополните его нужным содержимым и сохраните изменения.
Активировать промокод на 15%
Yoast SEO
Этот мощный СЕО-модуль для WP также решит задачу.
- Перейдите SEO > Инструменты.
- Нажмите Редактор файлов.
- Если в корневом каталоге этого файла нет, кликните Создать файл robots.txt.
Если есть, то откроется редактор для внесения изменений. - Нажмите Сохранить изменения в robots.txt.
All in One SEO Pack
Это решение тоже “умеет” работать с Robots. Для этого:
- Откройте All in One SEO > Модули.
- Выберите одноименное название модуля и нажмите Activate.
- Перейдите All in One SEO > Robots.txt.
- В полях добавьте директивы.
Настройка для интернет-магазинов (WooCommerce)
Для WordPress-ресурсов с использованием этого расширения просто добавьте эти правила:
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/
Нажмите, пожалуйста, на одну из кнопок, чтобы узнать понравилась статья или нет.
Мне нравится19Не нравится
Если Вам понравилась статья — поделитесь с друзьями
Как редактировать robots.txt через Yoast SEO • Yoast
Файл robots.txt сообщает поисковой системе, где разрешено переходить на ваш веб-сайт. Вы можете редактировать файл robots.txt с помощью Yoast SEO и Yoast SEO Premium. В этой статье мы покажем вам, как это сделать!
Хотите узнать больше о файле robots.txt и его функциях? Ознакомьтесь с нашим полным руководством по robots.txt.
WordPress по умолчанию
По умолчанию WordPress создает файл robots.txt со следующим содержанием:
Пользовательский агент: * Запретить: / wp-admin / Разрешить: /wp-admin/admin-ajax.php
При создании или настройке файла robots.txt это содержимое заменяется.
Создайте или отредактируйте robots.txt в панели управления WordPress
Самый простой способ создать или отредактировать файл robots.txt — использовать Yoast SEO на панели инструментов WordPress. Для этого выполните следующие действия.
- Войдите на свой сайт WordPress.
Когда вы войдете в систему, вы окажетесь в «Личном кабинете».
- Нажмите «SEO».
Слева вы увидите меню. В этом меню нажмите «SEO».
- Щелкните «Инструменты».
Параметры «SEO» расширятся, предоставляя вам дополнительные возможности. Щелкните «Инструменты».
- Щелкните «Редактор файлов».
Это меню не появится, если в вашей установке WordPress отключено редактирование файлов. Пожалуйста, разрешите редактирование файла или отредактируйте файл через FTP.Если вы не знаете, как использовать FTP, ваш хост-провайдер может помочь.
- Внесите изменения в свой файл.
- Сохраните изменения.
Создайте или отредактируйте на своем сервере
Если файл robots.txt недоступен для записи или ваша установка WordPress отключила редактирование файла, создание или редактирование robots.txt через панель управления WordPress может завершиться ошибкой. В этом случае вы можете редактировать на уровне сервера. WordPress генерирует виртуальные robots.txt
, если в корне сайта нет физического файла. Чтобы переопределить виртуальный файл, выполните следующие действия, чтобы создать физический файл robots.txt
.
- Используйте свой любимый текстовый редактор и создайте текстовый файл.
- Сохраните пустой файл с именем
robots.txt
. - Загрузите файл на свой сервер. Если вы не знаете, где на вашем сервере загрузить файл, обратитесь к своему веб-хосту.
Если WordPress блокировал доступ к виртуальному файлу, вы должны иметь возможность редактировать физический файл из нашего плагина.В противном случае вы всегда можете отредактировать robots.txt
прямо на своем сервере с помощью FTP или файлового менеджера сервера.
Пожалуйста, обратитесь за помощью к своему веб-хосту, если у вас возникли проблемы с загрузкой или редактированием файлов на вашем сервере.
Как оптимизировать ваш Robots.txt для SEO в WordPress (Руководство для начинающих)
Недавно один из наших читателей попросил нас дать советы о том, как оптимизировать файл robots.txt для улучшения SEO.
Файл
Robots.txt сообщает поисковым системам, как сканировать ваш сайт, что делает его невероятно мощным инструментом SEO.
В этой статье мы покажем вам, как создать идеальный файл robots.txt для SEO.
Что такое файл robots.txt?
Robots.txt — это текстовый файл, который владельцы веб-сайтов могут создать, чтобы сообщить роботам поисковых систем, как сканировать и индексировать страницы на своем сайте.
Обычно он хранится в корневом каталоге, также известном как основная папка, вашего веб-сайта. Базовый формат файла robots.txt выглядит так:
Пользовательский агент: [имя пользовательского агента] Disallow: [строка URL, которую нельзя сканировать] Пользовательский агент: [имя пользовательского агента] Разрешить: [строка URL для сканирования] Карта сайта: [URL-адрес вашего XML-файла Sitemap]
У вас может быть несколько строк инструкций, чтобы разрешить или запретить определенные URL-адреса и добавить несколько карт сайта.Если вы не запрещаете URL-адрес, то роботы поисковых систем предполагают, что им разрешено сканировать его.
Вот как может выглядеть файл примера robots.txt:
Пользовательский агент: * Разрешить: / wp-content / uploads / Запретить: / wp-content / plugins / Запретить: / wp-admin / Карта сайта: https://example.com/sitemap_index.xml
В приведенном выше примере robots.txt мы разрешили поисковым системам сканировать и индексировать файлы в нашей папке загрузки WordPress.
После этого мы запретили поисковым роботам сканировать и индексировать плагины и папки администратора WordPress.
Наконец, мы предоставили URL-адрес нашей XML-карты сайта.
Вам нужен файл Robots.txt для вашего сайта WordPress?
Если у вас нет файла robots.txt, поисковые системы все равно будут сканировать и индексировать ваш сайт. Однако вы не сможете указать поисковым системам, какие страницы или папки им не следует сканировать.
Это не окажет большого влияния, если вы впервые создаете блог и у вас мало контента.
Однако по мере того, как ваш веб-сайт растет и у вас появляется много контента, вы, вероятно, захотите лучше контролировать то, как ваш веб-сайт сканируется и индексируется.
Вот почему.
У поисковых роботов есть квота сканирования для каждого веб-сайта.
Это означает, что они просматривают определенное количество страниц во время сеанса сканирования. Если они не завершат сканирование всех страниц вашего сайта, они вернутся и возобновят сканирование в следующем сеансе.
Это может снизить скорость индексации вашего сайта.
Вы можете исправить это, запретив поисковым роботам сканировать ненужные страницы, такие как ваши административные страницы WordPress, файлы плагинов и папку тем.
Запрещая ненужные страницы, вы сохраняете квоту сканирования. Это помогает поисковым системам сканировать еще больше страниц на вашем сайте и как можно быстрее их индексировать.
Еще одна веская причина использовать файл robots.txt — это когда вы хотите запретить поисковым системам индексировать сообщение или страницу на вашем веб-сайте.
Это не самый безопасный способ скрыть контент от широкой публики, но он поможет вам предотвратить их появление в результатах поиска.
Что делает идеальный робот.txt Как выглядит файл?
Многие популярные блоги используют очень простой файл robots.txt. Их содержание может варьироваться в зависимости от потребностей конкретного сайта:
Пользовательский агент: * Запретить: Карта сайта: http://www.example.com/post-sitemap.xml Карта сайта: http://www.example.com/page-sitemap.xml
Этот файл robots.txt позволяет всем ботам индексировать весь контент и предоставляет им ссылку на XML-карту сайта веб-сайта.
Для сайтов WordPress мы рекомендуем следующие правила в файле robots.txt файл:
Пользовательский агент: * Разрешить: / wp-content / uploads / Запретить: / wp-content / plugins / Запретить: / wp-admin / Запретить: /readme.html Запретить: / ссылаться / Карта сайта: http://www.example.com/post-sitemap.xml Карта сайта: http://www.example.com/page-sitemap.xml
Указывает поисковым роботам индексировать все изображения и файлы WordPress. Он запрещает поисковым роботам индексировать файлы плагинов WordPress, область администрирования WordPress, файл readme WordPress и партнерские ссылки.
Добавляя карты сайта в файл robots.txt, вы упрощаете роботам Google поиск всех страниц на вашем сайте.
Теперь, когда вы знаете, как выглядит идеальный файл robots.txt, давайте посмотрим, как создать файл robots.txt в WordPress.
Как создать файл Robots.txt в WordPress?
Есть два способа создать файл robots.txt в WordPress. Вы можете выбрать наиболее подходящий для вас метод.
Метод 1. Роботы-редакторы.txt Использование «Все в одном» SEO
All in One SEO, также известный как AIOSEO, — лучший плагин WordPress SEO на рынке, используемый более чем 2 миллионами веб-сайтов.
Он прост в использовании и включает в себя генератор файлов robots.txt.
Если у вас еще не установлен плагин AIOSEO, вы можете ознакомиться с нашим пошаговым руководством по установке плагина WordPress.
Примечание: Бесплатная версия AIOSEO также доступна и имеет эту функцию.
После установки и активации плагина вы можете использовать его для создания и редактирования ваших файлов robots.txt прямо из админки WordPress.
Просто перейдите на All in One SEO »Tools , чтобы отредактировать файл robots.txt.
Во-первых, вам нужно включить параметр редактирования, установив переключатель «Включить пользовательский файл Robots.txt» в синий цвет.
Включив этот переключатель, вы можете создать собственный файл robots.txt в WordPress.
All in One SEO покажет существующий файл robots.txt в разделе «Предварительный просмотр Robots.txt» в нижней части экрана.
Эта версия покажет правила по умолчанию, которые были добавлены WordPress.
Эти правила по умолчанию предписывают поисковым системам не сканировать ваши основные файлы WordPress, позволяют ботам индексировать весь контент и предоставляют им ссылку на XML-карту сайта вашего сайта.
Теперь вы можете добавлять свои собственные правила для улучшения вашего robots.txt для SEO.
Чтобы добавить правило, введите пользовательский агент в поле «Пользовательский агент». Использование * применит правило ко всем пользовательским агентам.
Затем выберите, хотите ли вы «Разрешить» или «Запретить» сканирование поисковым системам.
Затем введите имя файла или путь к каталогу в поле «Путь к каталогу».
Правило будет автоматически применено к вашему robots.txt. Чтобы добавить другое правило, нажмите кнопку «Добавить правило».
Мы рекомендуем добавлять правила до тех пор, пока вы не создадите идеальный формат robots.txt, о котором мы рассказали выше.
Ваши собственные правила будут выглядеть так.
По завершении не забудьте нажать кнопку «Сохранить изменения», чтобы сохранить изменения.
Метод 2. Отредактируйте файл Robots.txt вручную с помощью FTP
Для этого метода вам нужно будет использовать FTP-клиент для редактирования файла robots.txt.
Просто подключитесь к своей учетной записи хостинга WordPress с помощью FTP-клиента.
Оказавшись внутри, вы сможете увидеть файл robots.txt в корневой папке вашего веб-сайта.
Если вы его не видите, скорее всего, у вас нет файла robots.txt.
В таком случае вы можете просто создать его.
Robots.txt — это простой текстовый файл, что означает, что вы можете загрузить его на свой компьютер и отредактировать с помощью любого текстового редактора, такого как Блокнот или TextEdit.
После сохранения изменений вы можете загрузить их обратно в корневую папку вашего веб-сайта.
Как проверить файл Robots.txt?
После создания файла robots.txt всегда рекомендуется протестировать его с помощью инструмента тестирования robots.txt.
Существует множество инструментов для тестирования robots.txt, но мы рекомендуем использовать тот, который находится в консоли поиска Google.
Во-первых, вам нужно, чтобы ваш веб-сайт был связан с Google Search Console. Если вы еще не сделали этого, ознакомьтесь с нашим руководством о том, как добавить свой сайт WordPress в Google Search Console.
Затем вы можете использовать инструмент тестирования роботов Google Search Console.
Просто выберите вашу собственность из выпадающего списка.
Инструмент автоматически загрузит файл robots.txt с вашего сайта и выделит ошибки и предупреждения, если они обнаружены.
Последние мысли
Цель оптимизации ваших роботов.txt предназначен для предотвращения сканирования поисковыми системами страниц, которые не являются общедоступными. Например, страницы в папке wp-plugins или страницы в папке администратора WordPress.
Среди экспертов по SEO распространен миф о том, что блокировка категорий, тегов и архивных страниц WordPress улучшит скорость сканирования и приведет к более быстрой индексации и более высокому ранжированию.
Это неправда. Это также противоречит рекомендациям Google для веб-мастеров.
Мы рекомендуем следовать вышеуказанным файлам robots.txt, чтобы создать файл robots.txt для вашего веб-сайта.
Мы надеемся, что эта статья помогла вам узнать, как оптимизировать файл robots.txt WordPress для SEO. Вы также можете увидеть наше полное руководство по WordPress SEO и лучшие инструменты WordPress SEO для развития вашего сайта.
Если вам понравилась эта статья, то подпишитесь на наш канал YouTube для видеоуроков по WordPress. Вы также можете найти нас в Twitter и Facebook.
WordPress Руководство Robots.txt — что это такое и как его использовать
Вы когда-нибудь слышали термин «роботы».txt и поинтересовались, как это применимо к вашему сайту? На большинстве веб-сайтов есть файл robots.txt, но это не значит, что большинство веб-мастеров его понимают. В этом посте мы надеемся изменить это, предложив более подробно изучить файл robots.txt WordPress, а также то, как он может контролировать и ограничивать доступ к вашему сайту. К концу вы сможете ответить на такие вопросы, как:
Есть много чего рассказать, так что приступим!
Что такое WordPress Robots.txt?
Прежде чем мы сможем поговорить о WordPress robots.txt важно определить, что в данном случае «робот». Роботы — это любой тип «ботов», который посещает веб-сайты в Интернете. Самый распространенный пример — поисковые роботы. Эти боты «ползают» по сети, чтобы помочь поисковым системам, таким как Google, индексировать и ранжировать миллиарды страниц в Интернете.
Итак, боты есть, в общем , вещь для интернета хорошая… или хотя бы необходимая вещь. Но это не обязательно означает, что вы или другие веб-мастера хотите, чтобы боты работали без ограничений.Желание контролировать взаимодействие веб-роботов с веб-сайтами привело к созданию в середине 1990-х годов стандарта исключения роботов . Robots.txt — это практическая реализация этого стандарта — , он позволяет вам контролировать, как участвующие боты взаимодействуют с вашим сайтом . Вы можете полностью заблокировать ботов, ограничить их доступ к определенным областям вашего сайта и многое другое.
Эта «участвующая» часть, тем не менее, важна. Файл robots.txt не может заставить бота выполнять его указания .А вредоносные боты могут и будут игнорировать файл robots.txt. Кроме того, даже авторитетные организации игнорируют некоторых команд, которые вы можете поместить в Robots.txt. Например, Google проигнорирует любые правила, которые вы добавляете в свой robots.txt, о том, как часто его сканеры посещают. Если у вас много проблем с ботами, вам может пригодиться такое решение безопасности, как Cloudflare или Sucuri.
Почему вам следует заботиться о своем файле Robots.txt?
Для большинства веб-мастеров преимущества хорошо структурированного файла robots.txt можно разделить на две категории:
- Оптимизация ресурсов сканирования поисковых систем путем указания им не тратить время на страницы, которые вы не хотите индексировать. Это помогает гарантировать, что поисковые системы сосредоточатся на сканировании наиболее важных для вас страниц.
- Оптимизация использования вашего сервера за счет блокировки ботов, тратящих ресурсы впустую.
Robots.txt конкретно не касается управления тем, какие страницы индексируются в поисковых системах
Robots.txt — не надежный способ контролировать, какие страницы индексируются поисковыми системами.Если ваша основная цель — предотвратить включение определенных страниц в результаты поисковой системы, правильный подход — использовать метатег noindex или другой аналогичный прямой метод.
Это связано с тем, что ваш Robots.txt напрямую не говорит поисковым системам не индексировать контент — он просто говорит им не сканировать его. Хотя Google не будет сканировать отмеченные области внутри вашего сайта, сам Google заявляет, что если внешний сайт ссылается на страницу, которую вы исключаете с помощью файла Robots.txt, Google все равно может проиндексировать эту страницу.
Джон Мюллер, аналитик Google для веб-мастеров, также подтвердил, что, если на странице есть ссылки, указывающие на нее, даже если она заблокирована файлом robots.txt, все равно может проиндексироваться. Вот что он сказал на видеовстрече в Центре веб-мастеров:
Здесь следует иметь в виду одну вещь: если эти страницы заблокированы файлом robots.txt, то теоретически может случиться так, что кто-то случайно перейдет по ссылке на одну из этих страниц. И если они это сделают, то может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован роботами.текст. Таким образом, мы не узнаем, что вы не хотите, чтобы эти страницы действительно индексировались.
Если они не заблокированы файлом robots.txt, вы можете поместить на эти страницы метатег noindex. И если кто-то будет ссылаться на них, и мы просканируем эту ссылку и подумаем, что, может быть, здесь есть что-то полезное, тогда мы будем знать, что эти страницы не нужно индексировать, и мы можем просто полностью пропустить их из индексации.
В связи с этим, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, вместо этого используйте noindex .
Как создать и отредактировать файл WordPress Robots.txt
По умолчанию WordPress автоматически создает виртуальный файл robots.txt для вашего сайта. Поэтому, даже если вы и пальцем не пошевелите, на вашем сайте уже должен быть файл robots.txt по умолчанию. Вы можете проверить, так ли это, добавив «/robots.txt» в конец своего доменного имени. Например, «https://kinsta.com/robots.txt» вызывает файл robots.txt, который мы используем здесь, в Kinsta:
Пример файла Robots.txt
Поскольку этот файл виртуальный, вы не можете его редактировать.Если вы хотите отредактировать файл robots.txt, вам нужно будет фактически создать на своем сервере физический файл, которым вы можете манипулировать по мере необходимости. Вот три простых способа сделать это…
Как создать и отредактировать файл Robots.txt с помощью Yoast SEO
Если вы используете популярный плагин Yoast SEO, вы можете создать (а позже отредактировать) файл robots.txt прямо из интерфейса Yoast. Однако, прежде чем вы сможете получить к нему доступ, вам необходимо включить расширенные функции Yoast SEO, перейдя в SEO → Dashboard → Features и переключившись на страниц дополнительных настроек :
Как включить расширенные функции Yoast
После активации перейдите в SEO → Инструменты и нажмите Редактор файлов :
Как получить доступ к редактору файлов Yoast
Если у вас еще нет физического робота.txt, Yoast предоставит вам возможность Создать файл robots.txt :
Как создать Robots.txt в Yoast
И как только вы нажмете эту кнопку, вы сможете редактировать содержимое файла Robots.txt прямо из того же интерфейса:
Как редактировать Robots.txt в Yoast
По мере чтения мы подробнее рассмотрим, какие типы директив следует добавлять в файл robots.txt WordPress.
Как создать и отредактировать файл Robots.txt с помощью универсального средства SEO
Если вы используете почти такой же популярный плагин, как Yoast All in One SEO Pack , вы также можете создавать и редактировать свои роботы WordPress.txt прямо из интерфейса плагина. Все, что вам нужно сделать, это перейти к All in One SEO → Feature Manager и Активировать файл Robots.txt feature:
Как создать Robots.txt в All In One SEO
Затем вы сможете управлять своим файлом Robots.txt, перейдя в All in One SEO → Robots.txt:
Как редактировать Robots.txt в All In One SEO
Как создать и отредактировать файл Robots.txt через FTP
Если вы не используете плагин SEO, который предлагает robots.txt, вы по-прежнему можете создавать файл robots.txt и управлять им через SFTP. Сначала с помощью любого текстового редактора создайте пустой файл с именем «robots.txt»:
.
Как создать свой собственный файл Robots.txt
Затем подключитесь к своему сайту через SFTP и загрузите этот файл в корневую папку вашего сайта. Вы можете внести дополнительные изменения в свой файл robots.txt, отредактировав его через SFTP или загрузив новые версии файла.
Что помещать в файл robots.txt
Хорошо, теперь у вас есть физический робот.txt на вашем сервере, который вы можете редактировать по мере необходимости. Но что вы на самом деле делаете с этим файлом? Как вы узнали из первого раздела, robots.txt позволяет вам контролировать взаимодействие роботов с вашим сайтом. Вы делаете это с помощью двух основных команд:
- User-agent — позволяет настраивать таргетинг на определенных ботов. Пользовательские агенты — это то, что боты используют для идентификации себя. С их помощью вы можете, например, создать правило, которое применяется к Bing, но не к Google.
- Запретить — позволяет запретить роботам доступ к определенным областям вашего сайта.
Существует также команда Allow , которую вы будете использовать в нишевых ситуациях. По умолчанию все на вашем сайте помечено как Allow , поэтому в 99% случаев нет необходимости использовать команду Allow . Но он пригодится там, где вы хотите Запретить доступ к папке и ее дочерним папкам, но Разрешить доступ к одной конкретной дочерней папке.
Вы добавляете правила, сначала указывая, к какому User-agent должно применяться правило, а затем перечисляя, какие правила применять, используя Disallow и Allow .Есть также некоторые другие команды, такие как Crawl-delay и Sitemap , но это либо:
- Игнорируется большинством основных поисковых роботов или интерпретируется совершенно по-разному (в случае задержки сканирования)
- Изменилось с помощью таких инструментов, как Google Search Console (для карт сайта)
Давайте рассмотрим некоторые конкретные варианты использования, чтобы показать вам, как все это сочетается.
Как использовать Robots.txt для блокировки доступа ко всему сайту
Допустим, вы хотите заблокировать доступ всех поисковых роботов к вашему сайту.Это маловероятно на действующем сайте, но может пригодиться для сайта разработки. Для этого вы должны добавить этот код в свой файл robots.txt WordPress:
Агент пользователя: *
Disallow: /
Что происходит в этом коде?
Звездочка * рядом с User-agent означает «все пользовательские агенты». Звездочка — это подстановочный знак, означающий, что он применяется к каждому пользовательскому агенту. / косая черта рядом с Disallow означает, что вы хотите запретить доступ к всем страницам , которые содержат «yourdomain.com / »(т.е. каждая страница вашего сайта).
Как использовать Robots.txt, чтобы заблокировать доступ одного бота к вашему сайту
Давайте изменим ситуацию. В этом примере мы сделаем вид, что вам не нравится, что Bing сканирует ваши страницы. Вы все время работаете в команде Google и даже не хотите, чтобы Bing просматривал ваш сайт. Чтобы заблокировать сканирование вашего сайта только Bing, замените подстановочный знак * звездочку на Bingbot:
Подпишитесь на информационный бюллетень
Хотите узнать, как мы увеличили трафик более чем на 1000%?
Присоединяйтесь к 20 000+ других, которые получают нашу еженедельную рассылку с инсайдерскими советами по WordPress!
Подпишитесь сейчас
Агент пользователя: Bingbot
Disallow: /
По сути, приведенный выше код говорит только применить правило Disallow к ботам с пользовательским агентом «Bingbot» .Вы вряд ли захотите блокировать доступ к Bing, но этот сценарий действительно пригодится, если есть конкретный бот, которому вы не хотите получать доступ к своему сайту. На этом сайте есть хороший список известных имен User-agent большинства сервисов.
Как использовать Robots.txt для блокировки доступа к определенной папке или файлу
В этом примере предположим, что вы хотите заблокировать доступ только к определенному файлу или папке (и всем подпапкам этой папки). Чтобы применить это к WordPress, допустим, вы хотите заблокировать:
- Вся папка wp-admin
- wp-логин.php
Вы можете использовать следующие команды:
Агент пользователя: *
Запретить: / wp-admin /
Запрещено: /wp-login.php
Как использовать Robots.txt для разрешения доступа к определенному файлу в запрещенной папке
Хорошо, теперь допустим, что вы хотите заблокировать всю папку, но все же хотите разрешить доступ к определенному файлу внутри этой папки. Здесь вам пригодится команда Allow . И это действительно очень применимо к WordPress.Фактически, виртуальный файл robots.txt WordPress прекрасно иллюстрирует этот пример:
Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php
Этот фрагмент блокирует доступ ко всей папке / wp-admin / , за исключением файла /wp-admin/admin-ajax.php .
Как использовать Robots.txt, чтобы запретить ботам сканировать результаты поиска WordPress
Одна специальная настройка WordPress, которую вы, возможно, захотите сделать, — это запретить поисковым роботам сканировать ваши страницы результатов поиска.По умолчанию WordPress использует параметр запроса «? S =». Итак, чтобы заблокировать доступ, все, что вам нужно сделать, это добавить следующее правило:
Агент пользователя: *
Запретить: /? S =
Запретить: / search /
Это также может быть эффективным способом остановить мягкие ошибки 404, если вы их получаете. Обязательно прочтите наше подробное руководство о том, как ускорить поиск в WordPress.
Как создать разные правила для разных ботов в robots.txt
До сих пор все примеры касались одного правила за раз.Но что, если вы хотите применить разные правила к разным ботам? Вам просто нужно добавить каждый набор правил в объявление User-agent для каждого бота. Например, если вы хотите создать одно правило, которое применяется к , все боты , а другое правило, которое применяется к , только Bingbot , вы можете сделать это следующим образом:
Агент пользователя: *
Запретить: / wp-admin /
Пользовательский агент: Bingbot
Disallow: /
В этом примере для всем ботам будет заблокирован доступ к / wp-admin /, а для Bingbot будет заблокирован доступ ко всему вашему сайту.
Тестирование файла Robots.txt
Вы можете протестировать свой файл robots.txt WordPress в Google Search Console, чтобы убедиться, что он правильно настроен. Просто нажмите на свой сайт и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете отправить любой URL, включая вашу домашнюю страницу. Вы должны увидеть зеленый значок Разрешено , если все доступно для сканирования. Вы также можете проверить URL-адреса, которые вы заблокировали, чтобы убедиться, что они действительно заблокированы, или Disallowed .
Тестовый файл robots.txt
Остерегайтесь спецификации UTF-8
BOM обозначает знак порядка байтов и в основном является невидимым символом, который иногда добавляется к файлам старыми текстовыми редакторами и т.п.Если это произойдет с вашим файлом robots.txt, Google может неправильно его прочитать. Вот почему так важно проверять файл на наличие ошибок. Например, как показано ниже, в нашем файле был невидимый символ, и Google жалуется на непонятный синтаксис. Это по существу делает недействительной первую строку нашего файла robots.txt, что не очень хорошо! У Гленна Гейба есть отличная статья о том, как бомба UTF-8 может убить вашего SEO.
Спецификация UTF-8 в вашем файле robots.txt
Робот Googlebot работает в основном в США
Также важно не блокировать робота Googlebot из США, даже если вы нацеливаетесь на регион за пределами США.Иногда они выполняют локальное сканирование, но Googlebot в основном находится в США .
Робот Googlebot в основном находится в США, но иногда мы также выполняем локальное сканирование. https://t.co/9KnmN4yXpe
— Центр поиска Google (@googlesearchc) 13 ноября 2017 г.
Что популярные сайты WordPress помещают в свой файл Robots.txt
Чтобы на самом деле предоставить некоторый контекст для перечисленных выше пунктов, вот как некоторые из самых популярных сайтов WordPress используют своих роботов.txt файлы.
TechCrunch
TechCrunch Файл Robots.txt
Помимо ограничения доступа к ряду уникальных страниц, TechCrunch, в частности, запрещает поисковым роботам:
Еще они установили особые ограничения для двух ботов:
Если вам интересно, IRLbot — это сканер из исследовательского проекта Техасского университета A&M. Это странно!
Фонд Обамы
Файл Robots.txt Фонда Обамы
Фонд Обамы не делал никаких специальных дополнений, предпочитая ограничивать доступ исключительно к / wp-admin /.
Angry Birds
Angry Birds Файл Robots.txt
Angry Birds имеет те же настройки по умолчанию, что и The Obama Foundation. Ничего особенного не добавлено.
Дрифт
Файл Drift Robots.txt
Наконец, Drift решает определить свои карты сайта в файле Robots.txt, но в остальном оставляет те же ограничения по умолчанию, что и The Obama Foundation и Angry Birds.
Правильно используйте Robots.txt
Завершая наше руководство по robots.txt, мы хотим еще раз напомнить вам, что использование команды Disallow в вашем файле robots.txt — это не то же самое, что использовать тег noindex . Robots.txt блокирует сканирование, но не обязательно индексацию. Вы можете использовать его для добавления определенных правил, определяющих, как поисковые системы и другие боты взаимодействуют с вашим сайтом, но он не будет явно контролировать, индексируется ваш контент или нет.
Для большинства обычных пользователей WordPress нет срочной необходимости изменять виртуальный файл robots.txt по умолчанию. Но если у вас возникли проблемы с конкретным ботом или вы хотите изменить способ взаимодействия поисковых систем с определенным плагином или темой, которую вы используете, вы можете добавить свои собственные правила.
Мы надеемся, что вам понравилось это руководство, и обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы об использовании файла robots.txt в WordPress.
Экономьте время, деньги и повышайте производительность сайта с помощью:
- Мгновенная помощь от экспертов по хостингу WordPress, 24/7.
- Интеграция Cloudflare Enterprise.
- Глобальный охват аудитории с 28 центрами обработки данных по всему миру.
- Оптимизация с помощью нашего встроенного мониторинга производительности приложений.
Все это и многое другое в одном плане без долгосрочных контрактов, поддержки миграции и 30-дневной гарантии возврата денег. Ознакомьтесь с нашими планами или поговорите с отделом продаж, чтобы найти план, который подходит именно вам.
Robots.txt и WordPress | WP Engine®
Поддержание поисковой оптимизации (SEO) вашего сайта имеет решающее значение для привлечения органического трафика. Однако есть некоторые страницы, такие как дублированный контент или промежуточные области, которые вы можете не захотеть, чтобы пользователи находили через поисковые системы.К счастью, есть способ запретить таким системам, как Google, получать доступ к определенным страницам и отображать их для поисковиков. Редактируя файл robots.txt
вашего сайта, вы можете контролировать, какой контент будет отображаться на страницах результатов поиска (SERP).
ПРИМЕЧАНИЕ. По умолчанию WP Engine ограничивает трафик поисковых систем на любой сайт, используя среду домен .wpengine.com
. Это означает, что поисковые системы не смогут посещать сайты, которые , а не в настоящее время находятся в разработке, с использованием личного домена.
О
Robots.txt
Файл robots.txt
содержит инструкции для поисковых систем о том, как находить и извлекать информацию с вашего веб-сайта. Этот процесс называется «сканированием». После того, как страница просканирована, она будет проиндексирована, чтобы поисковая система могла быстро найти и отобразить ее позже.
Первое, что делает сканер поисковой системы, когда попадает на сайт, — это ищет файл robots.txt
. Если его нет, он продолжит сканирование остальной части сайта в обычном режиме.Если он найдет этот файл, сканер будет искать в нем какие-либо команды, прежде чем продолжить.
В файле robots.txt
можно найти четыре общие команды:
-
Запретить
запрещает сканерам поисковых систем проверять и индексировать указанные файлы сайта. Это может помочь вам предотвратить появление в поисковой выдаче дублированного контента, промежуточных областей или других личных файлов. -
Разрешить
разрешает доступ к подпапкам, в то время как родительские папки запрещены. -
Задержка сканирования
предписывает поисковым роботам подождать определенное время перед загрузкой файла. -
Sitemap
указывает расположение любых файлов Sitemap, связанных с вашим сайтом.
Файлы Robots.txt
всегда форматируются одинаково, чтобы их директивы были понятны:
Каждая директива начинается с идентификации пользовательского агента
, который обычно является сканером поисковой системы. Если вы хотите, чтобы команда применялась ко всем потенциальным пользовательским агентам, вы можете использовать звездочку *
.Чтобы вместо этого настроить таргетинг на определенный пользовательский агент, вы можете добавить его имя. Например, мы могли бы заменить звездочку выше на Googlebot
, чтобы запретить Google сканирование страницы администратора.
Понимание того, как использовать и редактировать файл robots.txt
, жизненно важно. Включенные в него директивы будут определять, как поисковые системы взаимодействуют с вашим сайтом. Они могут помочь вам, скрывая контент, от которого вы хотите отвлечь пользователей, что улучшит общее SEO вашего сайта.
Протестируйте
роботов.txt Файл
Вы можете проверить, есть ли у вас файл robots.txt
, добавив /robots.txt
в конец URL-адреса вашего сайта в браузере (например, https://wpengine.com/robots.txt
). Это вызовет файл, если он существует. Однако наличие вашего файла не обязательно означает, что он работает правильно.
К счастью, проверить файл robots.txt
просто. Вы можете просто скопировать и вставить свой файл в тестер robots.txt.Инструмент выделит все ошибки в файле. Важно отметить, что изменения, которые вы вносите в редакторе тестера robots.txt и
, не будут применяться к фактическому файлу — вам все равно придется отредактировать файл на своем сервере.
Некоторые распространенные ошибки включают запрет на использование файлов CSS или JavaScript, неправильное использование «подстановочных знаков», таких как *
и $
, и случайное запрещение важных страниц. Также важно помнить, что сканеры поисковых систем чувствительны к регистру, поэтому все URL-адреса в вашем файле robots .txt
должен появиться так же, как и в вашем браузере.
Создание файла
Robots.txt с подключаемым модулем
Если на вашем сайте отсутствует файл robots.txt
, вы можете легко добавить его в WordPress с помощью плагина Yoast SEO. Это избавит вас от необходимости создавать простой текстовый файл и вручную загружать его на сервер. Если вы предпочитаете создать его вручную, перейдите к разделу «Создание файла Robots.txt вручную» ниже.
Перейдите к инструментам Yoast SEO
Для начала вам необходимо установить и активировать плагин Yoast SEO.Затем вы можете перейти на панель администратора WordPress и выбрать SEO > Tools на боковой панели :
Это приведет вас к списку полезных инструментов, к которым пользователи Yoast могут получить доступ для эффективного улучшения своего SEO.
Используйте редактор файлов для создания файла
Robots.txt
Одним из инструментов, доступных в списке, является редактор файлов. Это позволяет вам редактировать файлы, связанные с SEO вашего сайта, в том числе ваш robots.txt
файл:
Поскольку на вашем сайте его еще нет, выберите «Создать роботов».txt
файл:
Откроется редактор файлов, в котором вы сможете редактировать и сохранять новый файл.
Отредактируйте файл по умолчанию
Robots.txt и сохраните его
По умолчанию новый файл robots.txt
, созданный с помощью Yoast, включает директиву, скрывающую вашу папку wp-admin
и разрешающую доступ к вашему файлу admin-ajax.php
для всех пользовательских агентов. Рекомендуется оставить эту директиву в файле:
Перед сохранением файла вы также можете добавить любые другие директивы, которые хотите включить.В этом примере мы запретили поисковым роботам Bing доступ ко всем нашим файлам, добавили задержку сканирования в десять миллисекунд для поискового робота Yahoo Slurp
и направили поисковые роботы в расположение нашей карты сайта. Когда вы закончите вносить свои изменения, не забудьте их сохранить!
Руководство
Robots.txt Создание файла
Если вам нужно создать файл robots.txt
вручную, процесс так же прост, как создание и загрузка файла на ваш сервер.
- Создайте файл с именем
robots.txt
- Убедитесь, что имя написано в нижнем регистре
- Убедитесь, что расширение —
.txt
, а не.html
- Добавьте в файл любые необходимые директивы и сохраните
- Загрузите файл с помощью SFTP или SSH-шлюз в корневой каталог вашего сайта
ПРИМЕЧАНИЕ : Если в корне вашего сайта есть физический файл с именем robots.txt
, он перезапишет любые динамически сгенерированные роботы .txt
, созданный плагином или темой.
Использование файла robots.txt
Файл robots.txt
разбит на блоки пользовательским агентом. Внутри блока каждая директива указывается в новой строке. Например:
Пользовательский агент: * Запретить: / Пользовательский агент: Googlebot Запретить: Пользовательский агент: bingbot Запретить: / no-bing-crawl / Запрещено: wp-admin
Пользовательские агенты обычно сокращаются до более общего имени, но это не требуется .
Значения директивы чувствительны к регистру.
- URL-адреса
no-bing-crawl
иNo-Bing-Crawl
— это разных .
Глобализация и регулярные выражения не полностью поддерживаются .
-
*
в поле User-agent — это специальное значение, означающее «любой робот».
Ограничить доступ всех ботов к вашему сайту
(Все сайты в среде .wpengine.com
URL, автоматически применяется следующий файл robots.txt
.)
Пользовательский агент: * Disallow: /
Ограничить доступ одного робота ко всей площадке
Пользовательский агент: BadBotName Disallow: /
Ограничить доступ бота к определенным каталогам и файлам
Пример запрещает ботов на всех страницах wp-admin
и wp-login.php
. Это хороший стандартный или стартовый робот .txt
файл.
Пользовательский агент: * Запретить: / wp-admin / Запрещено: /wp-login.php
Ограничить доступ бота ко всем файлам определенного типа
В примере используется тип файла .pdf
Пользовательский агент: * Disallow: /*.pdf$
Ограничить конкретную поисковую систему
Пример использования Googlebot-Image в / wp-content / загружает каталог
User-Agent: Googlebot-Image Запретить: / wp-content / uploads /
Ограничить всех ботов, кроме одного
Пример разрешает только Google
Пользовательский агент: Google Запретить: Пользовательский агент: * Disallow: /
Добавление правильных комбинаций директив может быть сложным.К счастью, есть плагины, которые также создают (и тестируют) файл robots.txt
за вас. Примеры плагинов:
Если вам нужна дополнительная помощь в настройке правил в файле robots.txt, мы рекомендуем посетить Google Developers или The Web Robots Pages для получения дополнительных инструкций.
Задержка сканирования
Если вы видите слишком высокий трафик ботов и это влияет на производительность сервера, задержка сканирования может быть хорошим вариантом. Задержка сканирования позволяет ограничить время, которое должен пройти бот перед сканированием следующей страницы.
Чтобы настроить задержку сканирования, используйте следующую директиву, значение настраивается и указывается в секундах:
задержка сканирования: 10
Например, чтобы запретить сканирование всем ботам wp-admin
, wp-login.php
и установить задержку сканирования для всех ботов на 600 секунд (10 минут):
Пользовательский агент: * Запретить: /wp-login.php Запретить: / wp-admin / Задержка сканирования: 600
ПРИМЕЧАНИЕ : службы обхода контента могут иметь свои собственные требования для установки задержки обхода.Как правило, лучше всего напрямую связаться со службой для получения требуемого метода.
Отрегулируйте задержку сканирования для SEMrush
- SEMrush — отличный сервис, но сканирование может быть очень затруднительным, что в конечном итоге снижает производительность вашего сайта. По умолчанию боты SEMrush игнорируют директивы задержки сканирования в вашем файле robots.txt, поэтому обязательно войдите в их панель управления и включите Уважение задержки сканирования robots.txt .
- Дополнительную информацию о SEMrush можно найти здесь.
Настроить задержку сканирования Bingbot
- Bingbot должен соблюдать директивы
crawl-delay
, однако они также позволяют вам установить шаблон управления сканированием.
Отрегулируйте задержку сканирования для Google
Подробнее см. В документации поддержки Google)
Откройте страницу настроек скорости сканирования вашего ресурса.
- Если ваша скорость сканирования описывается как , рассчитанная как оптимальная , единственный способ уменьшить скорость сканирования — это подать специальный запрос.Вы не можете увеличить скорость сканирования .
- В противном случае выберите нужный вариант и затем ограничьте скорость сканирования по желанию. Новая скорость сканирования будет действовать в течение 90 дней.
ПРИМЕЧАНИЕ . Хотя эта конфигурация запрещена на нашей платформе, стоит отметить, что задержка сканирования Googlebot
не может быть изменена для сайтов, размещенных в подкаталогах, таких как domain.com/blog
.
Лучшие Лрактики
Прежде всего следует помнить о следующем: непроизводственные сайты должны запрещать использование всех пользовательских агентов.WP Engine автоматически делает это для любых сайтов, использующих домен environmentname .wpengine.com
. Только когда вы будете готовы «запустить» свой сайт, вы можете добавить файл robots.txt
.
Во-вторых, если вы хотите заблокировать определенного User-Agent, помните, что роботы не обязаны следовать правилам, установленным в вашем файле robots.txt
. Лучшей практикой было бы использовать брандмауэр, такой как Sucuri WAF или Cloudflare, который позволяет вам блокировать злоумышленников до того, как они попадут на ваш сайт.Или вы можете обратиться в службу поддержки за дополнительной помощью по блокировке трафика.
Наконец, если у вас очень большая библиотека сообщений и страниц на вашем сайте, Google и другие поисковые системы, индексирующие ваш сайт, могут вызвать проблемы с производительностью. Увеличение срока действия кеша или ограничение скорости сканирования поможет компенсировать это влияние.
СЛЕДУЮЩИЙ ШАГ: устранение ошибок 504
WordPress Robots.txt — Как добавить за несколько шагов
Недостаточно просто создать сайт.Попадание в списки поисковых систем — основная цель всех владельцев веб-сайтов, чтобы веб-сайт стал видимым в поисковой выдаче по определенным ключевым словам. Этот список веб-сайтов и видимость самого свежего контента в основном обусловлены роботами поисковых систем, которые сканируют и индексируют веб-сайты. Веб-мастера могут контролировать способ, которым эти роботы анализируют веб-сайты, вставляя инструкции в специальный файл с именем robots.txt.
В этой статье я расскажу, как настроить файл robots.txt WordPress для лучшего SEO-оптимизации сайта.Обратите внимание, что некоторые страницы веб-сайта WordPress могут не индексироваться поисковыми системами.
Что такое файл Robots.txt?
Файл robots.txt — это текстовый файл, расположенный в корне вашего веб-сайта, который сообщает сканерам поисковых систем не сканировать части вашего веб-сайта. Он также известен как протокол исключения роботов, который не позволяет поисковым системам индексировать определенное бесполезное и / или определенное содержимое (например, вашу страницу входа и конфиденциальные файлы).
Короче говоря, robots.txt сообщает ботам поисковых систем, что им не следует сканировать на вашем веб-сайте.
Вот как это работает! Когда бот поисковой системы собирается сканировать URL-адрес вашего веб-сайта (то есть сканировать и извлекать информацию, чтобы ее можно было проиндексировать), он сначала ищет ваш файл robots.txt.
Зачем создавать Robots.txt для WordPress?
Обычно вам не нужно добавлять файл robots.txt для веб-сайтов WordPress. По умолчанию поисковые системы индексируют все сайты WordPress. Однако для лучшего SEO вы можете добавить файл robots.txt в свой корневой каталог, чтобы специально запретить поисковым системам доступ к определенным областям вашего веб-сайта WordPress.
IdeaBox — Пример использования
Прочтите, как Cloudways помогли агентству WordPress создавать лучшие продукты.
Спасибо
Ваша электронная книга в папке «Входящие».
Как создать Robots.txt для WordPress?
Войдите в систему на панели управления управляемым веб-хостингом WordPress. В моем примере я использую Cloudways — платформу управляемого облачного хостинга.
Перейдите на вкладку Servers в верхней строке меню и получите доступ по SSH / SFTP из Server Management → Master Credentials .
Используйте любое приложение FTP-сервера для доступа к файлам базы данных WordPress. Для этого урока я использую FileZilla . Запустите его и подключитесь к вашему серверу, используя Master Credentials .
После подключения перейдите в папку / applications в файлах базы данных WordPress. Вы увидите там разные папки.
Теперь вернитесь на платформу Cloudways и в верхней левой панели перейдите к Applications .Выберите приложение, для которого вы хотите добавить файл robots.txt:
На левой панели перейдите в Управление приложениями → Настройки приложения → Общие . Вы найдете имя папки вашего приложения.
Вернитесь в FileZilla и перейдите к / applications / [ИМЯ ПАПКИ] / public_html . Создайте здесь новый текстовый файл и назовите его robots.txt .
Щелкните правой кнопкой мыши robots.txt и нажмите Просмотр / редактирование , чтобы открыть его в текстовом редакторе (Блокнот — удобный вариант).
Advanced Robots.txt для WordPress
Поисковые системы, такие как Google и Bing, поддерживают использование подстановочных знаков в файле robots.txt. Эти подстановочные знаки могут использоваться для разрешения / запрета определенных типов файлов на веб-сайте WordPress.
Звездочка (*) может использоваться для обработки широкого диапазона опций / вариантов выбора.
Агент пользователя: * Запретить: / images / image *.jpg
Здесь «*» означает, что все изображения, начинающиеся с «image» и с расширением «jpg», не будут индексироваться поисковыми системами. Вот несколько примеров файла robots.txt для WordPress.
Пример: image1.jpg, image2.jpg, imagexyz.jpg не будут индексироваться поисковыми системами.
Возможности * не ограничиваются только изображениями. Вы даже можете запретить использование всех файлов с определенным расширением.
Агент пользователя: * Запретить: /downloads/*.pdf Запретить: / downloads / *.png
Приведенные выше утверждения потребуют от всех поисковых систем запретить использование всех файлов с расширениями «pdf» и «png» в папке загрузок.
Вы даже можете запретить использование основных каталогов WordPress, используя *.
Агент пользователя: * Disallow: / wp - * /
Вышеупомянутая строка просит поисковые системы не сканировать каталоги, начинающиеся с «wp-».
Пример: wp-includes, wp-content и т. Д. Не будут индексироваться поисковыми системами.
Еще один подстановочный знак, используемый в роботах WordPress.txt — это символ доллара ($).
Агент пользователя: * Запрещено: referral.php
Приведенное выше утверждение попросит поисковые системы не индексировать referral.php, а также referral.php? Id = 123 и так далее.
Но что, если вы хотите заблокировать только referral.php? Вам нужно только включить символ $ сразу после файла referral.php.
Символ $ гарантирует, что блокируется только файл referral.php, но не referral.php? Id = 123.
Агент пользователя: * Запрещено: referral.php $
Вы также можете использовать $ для каталогов.
Агент пользователя: * Запретить: / wp-content /
Это даст указание поисковым системам запретить папку wp-content, а также все каталоги, расположенные внутри wp-content. Если вы хотите запретить только wp-content, а не все подпапки, вы должны использовать символ $. Например:
Агент пользователя: * Disallow: / wp-content /
долларов США.
Символ $ означает, что запрещен только wp-content. Все каталоги в этой папке по-прежнему доступны.
Ниже представлены роботы.txt для блога Cloudways.
Агент пользователя: * Запретить: / admin / Запретить: / admin / *? * Запретить: / admin / *? Запретить: / blog / *? * Запретить: / blog / *?
В первой строке указан User-agent. Это относится к поисковой системе, которой разрешен доступ к веб-сайту и его индексирование. Полный список всех поисковых роботов доступен здесь .
Агент пользователя: *
Где * означает все поисковые системы. Вы можете указать каждую поисковую систему отдельно.
Запретить: / admin / Запретить: / admin / *? * Запретить: / admin / *?
Это не позволит поисковым системам сканировать каталог «admin». Поисковым системам часто не нужно индексировать эти каталоги.
Disallow: / blog / *? * Запретить: / blog / *?
Если ваш сайт WordPress является сайтом для ведения блогов, рекомендуется ограничить роботов поисковых систем, чтобы они не сканировали ваши поисковые запросы.
Если на вашем сайте есть карта сайта. Добавление его URL-адреса помогает роботам поисковых систем находить файл карты сайта.Это приводит к более быстрой индексации страниц.
Карта сайта
: http://www.yoursite.com/sitemap.xml
Что включить в Robots.txt для WordPress?
Вы сами решаете, какие части сайта WordPress вы хотите включить в поисковую выдачу. У каждого свои взгляды на настройку файла robots.txt WordPress. Некоторые рекомендуют не добавлять файл robots.txt в WordPress. Хотя, на мой взгляд, следует добавлять и запрещать папку / wp-admin /. Файл robots.txt является общедоступным. Вы можете найти файл robots.txt любого веб-сайта, посетив www.example.com/robots.txt.
Мы закончили работу с файлом robots.txt в WordPress. Если у вас есть какие-либо вопросы о настройке файла robots.txt, не стесняйтесь спрашивать в разделе комментариев ниже.
Подведение итогов!
Как видите, файл robots.txt — интересный инструмент для вашего SEO. Это позволяет указать роботам поисковых систем, что индексировать, а что нет. Но обращаться с этим нужно осторожно. Неправильная конфигурация может привести к полной деиндексации вашего веб-сайта (пример: если вы используете Disallow: /).Так что будь осторожен!
Теперь ваша очередь. Подскажите, используете ли вы этот тип файла и как вы его настраиваете. Делитесь своими комментариями и отзывами в комментариях.
Часто задаваемые вопросы
1 кв. Что такое robots.txt?
robots.txt — это текстовый файл, размещаемый в корне вашего веб-сайта. Этот файл предназначен для запрета роботам поисковых систем индексировать определенные области вашего веб-сайта. Файл robots.txt — один из первых файлов, проверенных пауками (роботами).
2 кв. Почему используется файл robots.txt?
Файл robots.txt содержит инструкции для роботов поисковых систем, которые анализируют ваш веб-сайт, это протокол исключения для роботов. Благодаря этому файлу вы можете запретить исследование и индексацию вашего сайта некоторым роботам (также называемым «сканерами» или «пауками»).
Отзывы клиентов на
«Красиво оптимизированный хостинг для WordPress и Magento»
Арда Бурак [Владелец агентства]
Мустасам Салим
Мустасам — менеджер сообщества WordPress в Cloudways — управляемой платформе хостинга WordPress, где он активно работает и любит делиться своими знаниями с сообществом WordPress.Когда он не работает, вы можете увидеть, как он играет в сквош со своими друзьями или защищается в футболе и слушает музыку. Вы можете написать ему по адресу [email protected]
×
Получите наш информационный бюллетень
Будьте первым, кто получит последние обновления и руководства.
Спасибо за подписку на нас!
Полное руководство по роботам WordPress.txt (и как его использовать для SEO)
Чтобы обеспечить высокий рейтинг вашего сайта на страницах результатов поисковых систем (SERP), вам необходимо упростить для «роботов» поисковых систем возможность исследования его наиболее важных страниц. Наличие хорошо структурированного файла robots.txt поможет направить этих ботов на страницы, которые вы хотите проиндексировать (и избежать остальных).
В этой статье мы рассмотрим:
- Что такое файл robots.txt и почему он важен
- Где WordPress robots.txt находится файл.
- Как создать файл robots.txt .
- Какие правила включить в файл robots.txt WordPress .
- Как протестировать файл robots.txt и отправить его в консоль поиска Google.
К концу нашего обсуждения у вас будет все необходимое для настройки идеального файла robots.txt для вашего веб-сайта WordPress. Давайте нырнем!
Что такое файл robots.txt
WordPress (и зачем он вам нужен) По умолчанию в WordPress robots.txt довольно прост, но вы можете легко его заменить. Когда вы создаете новый веб-сайт, поисковые системы будут отправлять своих миньонов (или ботов), чтобы они «пролезли» по нему и составили карту всех содержащихся на нем страниц. Таким образом, они будут знать, какие страницы отображать в качестве результатов, когда кто-то ищет похожие ключевые слова. На базовом уровне это достаточно просто. Проблема в том, что современные веб-сайты содержат на элементов больше, чем на страниц. WordPress позволяет вам, например, устанавливать плагины, которые часто имеют свои собственные каталоги.Однако вы не хотите, чтобы они отображались в результатах вашей поисковой системы, поскольку это не релевантный контент. Файл robots.txt предоставляет набор инструкций для роботов поисковых систем. Он говорит им: «Эй, вы можете посмотреть здесь, но не заходите в те комнаты там!» Этот файл может быть сколь угодно подробным, и его довольно легко создать, даже если вы не технический мастер. На практике поисковые системы все равно будут сканировать ваш веб-сайт, даже если у вас нет файла robots.txt файл настроен. Однако не создавать его неэффективно. Без этого файла вы предоставляете ботам индексировать весь ваш контент, и они настолько тщательны, что могут в конечном итоге показать те части вашего веб-сайта, к которым вы не хотите, чтобы другие люди имели доступ. Что еще более важно, без файла robots.txt у вас будет много ботов, которые будут сканировать весь ваш сайт. Это может отрицательно сказаться на его производительности. Даже если попадание незначительно, скорость страницы всегда должна быть в верхней части вашего списка приоритетов.В конце концов, есть несколько вещей, которые люди ненавидят так же сильно, как медленные веб-сайты (в том числе и мы!). Когда вы создаете веб-сайт WordPress, он автоматически создает виртуальный файл robots.txt , расположенный в основной папке вашего сервера. Например, если ваш сайт расположен по адресу yourfakewebsite.com , вы сможете посетить адрес yourfakewebsite.com/robots.txt, и увидеть такой файл: Это пример очень простого робота .txt файл. Проще говоря, часть сразу после User-agent: объявляет, к каким ботам применяются приведенные ниже правила. Звездочка означает, что правила универсальны и применимы ко всем ботам. В этом случае файл сообщает этим ботам, что они не могут войти в ваши каталоги wp-admin и wp-includes . В этом есть определенный смысл, поскольку эти две папки содержат много конфиденциальных файлов. Однако вы можете захотеть добавить больше правил в свой собственный файл.Прежде чем вы сможете это сделать, вам нужно понять, что это виртуальный файл . Обычно расположение robots.txt Где находится файл robots.txt WordPress
Агент пользователя: *
Запретить: / wp-admin /
Disallow: / wp-includes /
Однако файл robots.txt , созданный WordPress по умолчанию, вообще недоступен из любого каталога. Он работает, но если вы хотите внести в него изменения, вам нужно будет создать свой собственный файл и загрузить его в корневую папку в качестве замены.
Мы рассмотрим несколько способов создания нового файла robots.txt для WordPress за минуту. А пока давайте поговорим о том, как определить, какие правила следует включать в ваши.
Какие правила включить в ваш WordPress
Файл robots.txt
В последнем разделе вы видели пример файла robots.txt , созданного WordPress. Он включал только два коротких правила, но большинство веб-сайтов устанавливали больше. Давайте посмотрим на двух разных роботов .txt и поговорите о том, что каждый из них делает по-своему.
Вот наш первый пример WordPress robots.txt :
Агент пользователя: * Разрешать: / # Запрещенные подкаталоги Disallow: / checkout / Запретить: / images / Disallow: / forum /
Это общий файл robots.txt для веб-сайта с форумом. Поисковые системы часто индексируют каждую ветку форума. Однако в зависимости от того, для чего предназначен ваш форум, вы можете запретить его.Таким образом, Google не будет индексировать сотни сообщений о пользователях, которые ведут светскую беседу. Вы также можете установить правила, указывающие на определенные подфорумы, которых следует избегать, и позволить поисковым системам сканировать остальные из них.
Вы также заметите строку с надписью Allow: / в верхней части файла. Эта строка сообщает ботам, что они могут сканировать все страницы вашего веб-сайта, за исключением исключений, которые вы установили ниже. Точно так же вы заметите, что мы установили эти правила как универсальные (отмечены звездочкой), как виртуальные роботы WordPress.txt делает.
Теперь давайте посмотрим на другой пример файла robots.txt на WordPress :
.
Агент пользователя: * Запретить: / wp-admin / Запретить: / wp-includes / Пользовательский агент: Bingbot Disallow: /
В этом файле мы устанавливаем те же правила, что и WordPress по умолчанию. Однако мы также добавили новый набор правил, которые запрещают поисковому роботу Bing сканировать наш веб-сайт. Как вы могли догадаться, имя этого бота — Bingbot.
Вы можете довольно точно определить, какие роботы поисковых систем получают доступ к вашему сайту, а какие нет.На практике, конечно, Bingbot довольно безобиден (даже если он не такой крутой, как Googlebot). Однако существует вредоносных ботов.
Плохая новость в том, что они не всегда следуют инструкциям вашего файла robots.txt (в конце концов, они бунтовщики). Следует помнить, что, хотя большинство ботов будут следовать инструкциям, которые вы предоставили в этом файле, вы не заставляете их делать это. Вы просто вежливо просите.
Если вы прочтете эту тему, вы найдете множество предложений о том, что разрешить и что заблокировать на своем веб-сайте WordPress.Однако, по нашему опыту, чем меньше правил, тем лучше. Вот пример того, как должен выглядеть ваш первый файл robots.txt :
User-Agent: * Разрешить: / wp-content / uploads / Запретить: / wp-content / plugins /
Традиционно WordPress любит блокировать доступ к каталогам wp-admin и wp-includes . Однако это больше не считается оптимальной практикой. Кроме того, если вы добавляете метаданные к изображениям в целях поисковой оптимизации (SEO), не имеет смысла запрещать ботам сканировать эту информацию.Вместо этого два приведенных выше правила охватывают то, что требуется для большинства основных сайтов.
Однако то, что вы включите в файл robots.txt , будет зависеть от вашего конкретного сайта и потребностей. Так что не стесняйтесь проводить дополнительные исследования самостоятельно!
Как создать файл WordPress
robots.txt (3 метода)
После того, как вы определились, что будет помещено в ваш файл robots.txt , остается только создать его. Вы можете редактировать robots.txt и в WordPress либо с помощью плагина, либо вручную.В этом разделе мы научим вас, как использовать два популярных плагина для выполнения работы, и обсудим, как создать и загрузить файл самостоятельно. Поехали!
1. Используйте Yoast SEO
Yoast SEO вряд ли нуждается в представлении. Это самый популярный плагин SEO для WordPress, который позволяет вам оптимизировать ваши сообщения и страницы, чтобы лучше использовать ваши ключевые слова. Кроме того, он также оказывает вам помощь, когда дело доходит до повышения читабельности вашего контента, а это значит, что он сможет понравиться большему количеству людей.
Лично мы фанаты Yoast SEO из-за простоты его использования. То же самое относится и к созданию файла robots.txt . После установки и активации плагина перейдите на вкладку SEO ›Инструменты на панели инструментов и найдите вариант с надписью Редактор файлов:
Нажав на эту ссылку, вы перейдете на новую страницу, где сможете редактировать файл .htaccess , не покидая панели управления. Также есть удобная кнопка с надписью Create robots.txt , который делает именно то, что вы ожидаете:
После того, как вы нажмете эту кнопку, на вкладке отобразится новый редактор, в котором вы можете напрямую изменить файл robots.txt . Имейте в виду, что Yoast SEO устанавливает свои собственные правила по умолчанию, которые переопределяют существующий виртуальный файл robots.txt .
Всякий раз, когда вы добавляете или удаляете правила, не забудьте нажать кнопку Сохранить изменения в robots.txt , чтобы они сохранялись:
Это достаточно просто! Теперь давайте посмотрим, как другой популярный плагин делает то же самое.
2. Плагин All in One SEO Pack
All in One SEO Pack — еще одно громкое имя, когда речь идет о WordPress SEO. Он включает в себя большинство функций Yoast SEO, но некоторые люди предпочитают его, потому что это более легкий плагин. Что касается robots.txt и , создание файла с помощью этого плагина также просто.
После настройки плагина перейдите на страницу All in One SEO> Feature Manager на панели инструментов.Внутри вы найдете опцию Robots.txt с заметной кнопкой Activate прямо под ней. Идите и нажмите на это:
Теперь новая вкладка Robots.txt появится под вашим меню All in One SEO . Если вы нажмете на нее, вы увидите варианты добавления новых правил в файл, сохранения внесенных вами изменений или полного удаления:
Обратите внимание, что вы не можете вносить изменения в файл robots.txt напрямую с помощью этого подключаемого модуля.Сам файл неактивен, в отличие от Yoast SEO, который позволяет вам вводить все, что вы хотите:
В любом случае добавить новые правила просто, так что пусть этот небольшой недостаток не отпугнет вас. Что еще более важно, All in One SEO Pack также включает функцию, которая может помочь вам блокировать «плохих» ботов, доступ к которым вы можете получить на вкладке All in One SEO :
Это все, что вам нужно сделать, если вы решите использовать этот метод. Однако давайте поговорим о том, как создать robots.txt вручную, если вы не хотите настраивать дополнительный плагин только для выполнения этой задачи.
3. Создайте и загрузите свой файл WordPress
robots.txt через FTP
Создание файла txt и не может быть проще. Все, что вам нужно сделать, это открыть свой любимый текстовый редактор (например, Блокнот или TextEdit) и ввести несколько строк. Затем вы можете сохранить файл, используя любое имя и тип файла txt . На это уходит буквально секунда, поэтому есть смысл отредактировать robots.txt в WordPress без использования плагина.
Вот быстрый пример одного из таких файлов:
Для целей этого руководства мы сохранили этот файл прямо на наш компьютер. После того, как вы создали и сохранили свой собственный файл, вам нужно будет подключиться к своему веб-сайту через FTP. Если вы не знаете, как это сделать, у нас есть руководство, как это сделать с помощью удобного для новичков клиента FileZilla.
После подключения к своему сайту перейдите в папку public_html .Затем все, что вам нужно сделать, это загрузить файл robots.txt со своего компьютера на свой сервер. Вы можете сделать это, щелкнув файл правой кнопкой мыши с помощью локального навигатора FTP-клиента или просто перетащив его на место:
Загрузка файла должна занять всего несколько секунд. Как видите, этот метод почти так же прост, как использование плагина.
Как протестировать файл robots.txt WordPress и отправить его в консоль поиска Google
После того, как ваш WordPress файл robots.txt создается и загружается, вы можете использовать Google Search Console, чтобы проверить его на наличие ошибок. Search Console — это набор инструментов, которые Google предлагает, чтобы помочь вам отслеживать, как ваш контент отображается в результатах поиска. Одним из этих инструментов является программа проверки robots.txt , которую вы можете использовать, войдя в консоль и перейдя на вкладку robots.txt Tester :
Внутри вы найдете поле редактора, в которое вы можете добавить код файла robots.txt WordPress и нажать кнопку «Отправить » прямо под ним.Консоль поиска Google спросит, хотите ли вы использовать этот новый код или вытащите файл со своего веб-сайта. Нажмите на вариант с надписью Попросите Google обновить , чтобы отправить его вручную:
Теперь платформа проверит ваш файл на наличие ошибок. Если есть, он укажет вам на них. Однако к настоящему времени вы видели более одного примера файла robots.txt для WordPress , так что велики шансы, что ваш пример идеален!
Заключение
Чтобы увеличить посещаемость вашего сайта, вам необходимо убедиться, что роботы поисковых систем сканируют наиболее релевантную информацию.Как мы видели, хорошо настроенный файл robots.txt WordPress позволит вам точно определять, как эти боты взаимодействуют с вашим сайтом. Таким образом, они смогут предоставить пользователям более релевантный и полезный контент.
У вас есть вопросы о том, как отредактировать robots.txt и в WordPress? Дайте нам знать в комментариях ниже!
Уилл Моррис — штатный автор WordCandy. Когда он не пишет о WordPress, ему нравится устраивать выступления на местных концертах.
Оптимизация
WordPress Robots.txt (+ XML Sitemap) — посещаемость веб-сайта, поисковая оптимизация и повышение рейтинга — плагин для WordPress
Better Robots.txt создает виртуальный файл robots.txt WordPress, помогает вам повысить SEO вашего сайта (возможности индексации, рейтинг Google и т. Д.) И производительность загрузки — Совместимость с Yoast SEO, Google Merchant, WooCommerce и сетевыми сайтами на основе каталогов ( МУЛЬТИСИТ)
С помощью Better Robots.txt вы можете определить, каким поисковым системам разрешено сканировать ваш сайт (или нет), указать четкие инструкции о том, что им разрешено (или нет), и определить задержку сканирования (для защиты вашего хостинг-сервера от агрессивные скребки).Better Robots.txt также дает вам полный контроль над содержимым файла robots.txt WordPress с помощью окна пользовательских настроек.
Уменьшите экологический след вашего сайта и выбросы парниковых газов (CO2), обусловленные его существованием в Интернете.
Краткий обзор:
ПОДДЕРЖИВАЕТСЯ НА 7 ЯЗЫКАХ
Плагины
Better Robots.txt переведены и доступны на следующих языках: китайский — 汉语 / 漢語, английский, французский — Français, русский –Руссɤɢɣ, португальский — Português, испанский — Español, немецкий — Deutsch
Знаете ли вы, что…
- Роботы.txt — это простой текстовый файл, размещаемый на вашем веб-сервере, который сообщает поисковым роботам (например, роботу Google), следует ли им обращаться к файлу.
- Файл robots.txt контролирует, как пауки поисковых систем видят ваши веб-страницы и взаимодействуют с ними;
- Этот файл и боты, с которыми они взаимодействуют, являются фундаментальными частями работы поисковых систем;
- Первое, на что смотрит сканер поисковой системы при посещении страницы, — это файл robots.txt;
Роботы.txt — это источник сока SEO, который только и ждет, чтобы его разблокировали. Попробуйте Better Robots.txt!
О версии Pro (дополнительные возможности):
1. Повысьте свой контент в поисковых системах с помощью карты сайта!
Убедитесь, что ваши страницы, статьи и продукты, даже самые последние, принимаются во внимание поисковыми системами!
Плагин Better Robots.txt был создан для работы с плагином Yoast SEO (вероятно, лучшим плагином SEO для веб-сайтов WordPress).Он определит, используете ли вы в настоящее время Yoast SEO и активирована ли функция карты сайта. Если это так, то он автоматически добавит инструкции в файл Robots.txt, предлагая ботам / сканерам прочитать вашу карту сайта и проверить, внесли ли вы последние изменения на свой веб-сайт (чтобы поисковые системы могли сканировать новый доступный контент).
Если вы хотите добавить свою собственную карту сайта (или если вы используете другой плагин SEO), вам просто нужно скопировать и вставить URL-адрес вашей карты сайта и Better Robots.txt добавит его в ваш WordPress Robots.txt.
2. Защитите свои данные и контент
Не позволяйте вредоносным ботам сканировать ваш веб-сайт и коммерциализировать ваши данные.
Плагин Better Robots.txt помогает заблокировать сканирование и очистку ваших данных наиболее популярными вредоносными ботами.
Когда дело доходит до сканирования вашего сайта, есть хорошие и плохие боты. Хорошие боты, такие как бот Google, сканируют ваш сайт, чтобы проиндексировать его для поисковых систем. Другие сканируют ваш сайт по более гнусным причинам, таким как удаление вашего контента (текст, цена и т. Д.)) для переиздания, загрузки целых архивов вашего сайта или извлечения ваших изображений. Сообщалось, что некоторые боты даже закрывали целые веб-сайты в результате интенсивного использования широкополосного доступа.
Плагин Better Robots.txt защищает ваш сайт от пауков / парсеров, которые Distil Networks определили как плохих ботов.
3. Скрыть и защитить обратные ссылки
Не позволяйте конкурентам определять ваши прибыльные обратные ссылки.
Обратные ссылки, также называемые «входящими ссылками» или «входящими ссылками», создаются, когда один веб-сайт ссылается на другой.Ссылка на внешний веб-сайт называется обратной ссылкой. Обратные ссылки особенно ценны для SEO, потому что они представляют собой «вотум доверия» от одного сайта к другому. По сути, обратные ссылки на ваш сайт являются сигналом для поисковых систем о том, что другие ручаются за ваш контент.
Если многие сайты ссылаются на одну и ту же веб-страницу или веб-сайт, поисковые системы могут сделать вывод, что контент заслуживает ссылки и, следовательно, также стоит показывать в поисковой выдаче. Таким образом, получение этих обратных ссылок оказывает положительное влияние на позицию сайта в рейтинге или видимость в поисковой сети.В индустрии SEM специалисты очень часто определяют, откуда берутся эти обратные ссылки (от конкурентов), чтобы отсортировать лучшие из них и создать высококачественные обратные ссылки для своих клиентов.
Учитывая, что создание очень прибыльных обратных ссылок для компании занимает много времени (время + энергия + бюджет), позволяя вашим конкурентам так легко идентифицировать и дублировать их, это чистая потеря эффективности.
Better Robots.txt поможет вам заблокировать всех поисковых роботов (aHref, Majestic, Semrush), чтобы ваши обратные ссылки не обнаруживались.
4. Избегайте спамовых обратных ссылок
Боты, заполняющие формы комментариев на вашем веб-сайте, говорят вам «отличная статья», «любите информацию», «надеются, что вы скоро сможете подробнее рассказать о теме» или даже предоставляют персонализированные комментарии, включая имя автора. Спам-боты со временем становятся все более умными, и, к сожалению, ссылки для спама в комментариях могут действительно повредить вашему профилю обратных ссылок. Better Robots.txt поможет вам избежать индексации этих комментариев поисковыми системами.
5.SEO инструменты
При улучшении нашего плагина мы добавили ссылки на 2 очень важных инструмента (если вас беспокоит ваш рейтинг в поисковых системах): Google Search Console и Bing Webmaster Tool. Если вы еще не используете их, теперь вы можете управлять индексированием своего веб-сайта, оптимизируя файл robots.txt! Также был добавлен прямой доступ к инструменту массового пинга, который позволяет пинговать свои ссылки в более чем 70 поисковых системах.
Мы также создали 4 ярлыка, относящиеся к лучшим онлайн-инструментам SEO, непосредственно доступным на Better Robots.txt SEO PRO. Так что теперь вы можете в любое время проверить производительность загрузки вашего сайта, проанализировать свой SEO-рейтинг, определить свой текущий рейтинг в поисковой выдаче с помощью ключевых слов и трафика и даже просканировать весь сайт на наличие мертвых ссылок (ошибки 404, 503, …) Прямо из плагина.
6. Будьте уникальны
Мы подумали, что можем добавить немного оригинальности в Better Robots.txt, добавив функцию, позволяющую «настраивать» ваш файл robots.txt WordPress с помощью вашей собственной уникальной «подписи».«Большинство крупных компаний в мире персонализировали свой robots.txt, добавив пословицы (https://www.yelp.com/robots.txt), слоганы (https://www.youtube.com/robots.txt) или даже рисунки (https://store.nike.com/robots.txt — внизу). И почему не ты тоже? Вот почему мы выделили специальную область на странице настроек, где вы можете писать или рисовать все, что хотите (действительно), не влияя на эффективность работы robots.txt.
7. Запретить роботам сканировать бесполезные ссылки WooCommerce
Мы добавили уникальную функцию, позволяющую блокировать определенные ссылки («добавить в корзину», «заказать», «заполнить», корзину, аккаунт, оформить заказ и т. Д.) От сканирования поисковыми системами.Большинство этих ссылок требуют значительного использования ЦП, памяти и полосы пропускания (на хост-сервере), потому что они не кэшируются и / или создают «бесконечные» циклы сканирования (пока они бесполезны). Оптимизация вашего файла robots.txt в WordPress для WooCommerce при наличии интернет-магазина позволяет обеспечить большую вычислительную мощность для действительно важных страниц и повысить производительность загрузки.
8. Избегайте ловушек на гусеничном ходу:
«Ловушки сканера» — это структурная проблема на веб-сайте, которая заставляет сканеры находить практически бесконечное количество нерелевантных URL-адресов.Теоретически сканеры могут застрять в одной части веб-сайта и никогда не завершить сканирование этих нерелевантных URL-адресов. Улучшенный файл Robots.txt помогает предотвратить ловушки сканера, которые сокращают бюджет сканирования и вызывают дублирование контента.
9. Инструменты взлома роста
Сегодня самые быстрорастущие компании, такие как Amazon, Airbnb и Facebook, добились резкого роста, объединив свои команды вокруг высокоскоростного процесса тестирования / обучения. Речь идет о взломе роста. Взлом роста — это процесс быстрого экспериментирования и реализации маркетинговых и рекламных стратегий, которые ориентированы исключительно на эффективный и быстрый рост бизнеса.Better Robots.txt предоставляет список из 150+ инструментов, доступных в Интернете, чтобы ускорить ваш рост.
10. Robots.txt Post Meta Box для ручных исключений
Этот мета-блок сообщения позволяет установить «вручную», должна ли страница быть видимой (или нет) в поисковых системах, путем внедрения специального правила «запретить» + «noindex» в ваш файл robots.txt WordPress. Почему это полезно для вашего рейтинга в поисковых системах? Просто потому, что некоторые страницы не предназначены для сканирования / индексации. Страницы с благодарностью, целевые страницы, страницы, содержащие исключительно формы, полезны для посетителей, но не для поисковых роботов, и вам не нужно, чтобы они отображались в поисковых системах.Кроме того, некоторые страницы, содержащие динамические календари (для онлайн-бронирования), НИКОГДА не должны быть доступны для поисковых роботов, поскольку они имеют тенденцию заманивать их в бесконечные циклы сканирования, что напрямую влияет на ваш бюджет сканирования (и ваш рейтинг).
Добавить комментарий