Содержание

как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU

Почему дубли страниц — это плохо?


Дубли — это страницы с одинаковым содержимым, т.е. они дублируют друг друга.


Причины, по которым страницы дублируются, могут быть разными:

  • автоматическая генерация;
  • ошибки в структуре сайта;
  • некорректная разбивка одного кластера на две страницы и другие.


Дубли страниц — это плохо для продвижения и раскрутки сайта, даже несмотря на то, что они могут появляться по естественным причинам. Дело в том, что поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. И чем больше таких страниц, тем больше сигналов поисковым ботам, что это сайт не достоин быть в топе выдачи.


Что происходит с сайтом, у которого есть дубликаты страниц?

  1. Снижается его релевантность. Обе страницы с одинаковым контентом пессимизируются в выдаче, теряют позиции и трафик.
  2. Снижается процент уникальности текстового контента. Из-за этого понизится уникальность всего сайта.
  3. Снижается вес URL-адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, а если таких одинаковых страниц несколько, все теряют в весе.
  4. Увеличивается время на индексацию. Чем больше страниц, тем больше времени нужно боту, чтобы индексировать ваш сайт. Для крупных сайтов проблемы с индексацией могут сильно сказаться на трафике из поиска.
  5. Бан от поисковых систем. Можно вообще вылететь из выдачи на неопределенный срок.


В общем, становится понятно, что дубли никому не нужны. Давайте разбираться, как найти и обезвредить дублирующиеся страницы на сайте.

Как найти дубли страниц?


Кирилл Бузаков,

SEO-оптимизатор компании SEO.RU:


«Когда мы получаем в работу сайт, мы проверяем его на наличие дублей страниц, отдающих код 200. Разберем, какие это могут быть дубли.

Возможные типы дублей страниц на сайте


  1. Дубли страниц с протоколами http и https.


    Например: https://site.ru и http://site.ru


  2. Дубли с www и без.


    Например: https://site.ru и https://www.site.ru


  3. Дубли со слешем на конце URL и без.


    Например: https://site.ru/example/ и https://site.ru/example


  4. Дубли с множественными слешами в середине либо в конце URL.


    Например: https://site.ru/////////, https://site.ru/////////example/


  5. Прописные и строчные буквы на различных уровнях вложенности в URL.


    Например: https://site.ru/example/ и https://site.ru/EXAMPLE/


  6. Дубли с добавлением на конце URL:

    • index.php;
    • home.php;
    • index.html;
    • home.html;
    • index.htm;
    • home.htm.


    Например: https://site.ru/example/ и https://site.ru/example/index.html


  7. Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности.


    Например: https://site.ru/example/saf3qA/, https://site.ru/saf3qA/example/ и https://site.ru/examplesaf3qA/


  8. Добавление произвольных цифр в конце URL в качестве нового уровня вложенности.


    Например: https://site.ru/example/ и https://site.ru/example/32425/


  9. Дубли с добавлением «звездочки» в конце URL.


    Например: https://site.ru/example/ и https://site.ru/example/*


  10. Дубли с заменой дефиса на нижнее подчеркивание или наоборот.


    Например: https://site.ru/defis-ili-nizhnee-podchyorkivanie/ и https://site.ru/defis_ili_nizhnee_podchyorkivanie/


  11. Дубли с некорректно указанными уровнями вложенности.


    Например: https://site.ru/category/example/ и https://site.ru/example/category/


  12. Дубли с отсутствующими уровнями вложенности.


    Например: https://site. ru/category/example/ и https://site.ru/example/

Как обнаружить дубли страниц?


Поиск дублей страниц можно произвести разными способами. Если вы хотите собрать все-все дубли и ничего не упустить, лучше использовать все нижеперечисленные сервисы совместно. Но для поиска основных достаточно какого-то одного инструмента, выбирайте, какой вам ближе и удобнее.


  1. Парсинг сайта в специализированной программе


    Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:


    Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200:


  2. Онлайн-сервисы.


    Первый, подходящий нашим целям сервис, — это ApollonGuru.

    • Выбираем 5-7 типовых страниц сайта. Например, набор может быть таким: главная, разводящая, карточка товара/страница услуги, статья в блоге, а также другие важные страницы в зависимости от типа сайта.
    • Вносим их в поле «Поиск дублей страниц» и нажимаем кнопку «Отправить»:

    • Дубли с 200 кодом ответа сервера (смотрим столбец «Код ответа сервера») берем в работу:


      Кроме того, необходимо проверять, что с дублей настроены прямые 301 редиректы на основные версии этих же страниц.


Также проверка дублей сайта возможна онлайн-сервисом Check Your Redirects and Statuscode, но он подходит только в том случае, если нужно проанализировать один URL-адрес:


  1. Панели веб-мастеров Яндекса и Google.


    Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс. Вебмастера и Google Search Console.


    В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:


    Там можно увидеть текущую индексацию сайта и искомые дубли страниц:


    В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:


Собираем все дубли в одну таблицу или документ. Затем отправляем их в работу программисту:


Старайтесь подробнее объяснить программисту задачу, так как адресов может быть много».

Как убрать дубли страниц на сайте?


Евгений Костырев,

веб-программист компании SEO.RU:


«С дублирующимися страницами бороться можно разными способами. Если есть возможность, стоит использовать ручной метод. Но такая возможность есть не всегда, потому что здесь нужны серьезные навыки программирования: как минимум, нужно хорошо разбираться в особенностях CMS своего сайта. (.*)index\.(php|html|htm)$ http://site.ru/$1 [R=301,L]


Если же сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений, например:


location = /index.html {

return 301 https://site.com

}


Вместо index.html можно указать любой другой URL-адрес страницы вашего сайта, с которого нужно сделать редирект.


На этом этапе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дубли, но и вообще весь сайт из всего интернета.

Создание канонической страницы


Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.


Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы:


<link rel= “canonical” href= «http://www. site.ru/original-page.html”&gt;


Можно прописывать их вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress это YoastSEO или AllinOneSEOPack.


В 1С-Битрикс это делается с помощью языка программирования PHP в соответствующих файлах. Такая же история и с CMS Joomla: без вмешательства программиста или собственных навыков программирования здесь не обойтись.

Директива Disallow в robots.txt


В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.


Читать по теме: Как правильно заполнить файл robots.txt: критически важные моменты


Если на сайте есть дубли, можно запретить краулеру их индексировать с помощью директивы:


User-agent: *

Disallow: site.ru/contacts.php?work=225&s=1


Такой способ практически не требует навыков программиста, однако он не подходит, если дублей много: очень много времени уйдет на изменение robots. txt каждого дубля».


Выбирайте способ, исходя из собственных навыков программирования и личных предпочтений, и не давайте поисковикам повод сомневаться в релевантности и качестве вашего сайта.

Как убрать дубликаты страниц — Академия SEO (СЕО)

Содержание:



 



Как избавиться от дублей страниц



После того как были обнаружены копии страничек веб-ресурса, нужно решить, как убрать дублирование. Ведь даже если подобных повторений немного, это все равно негативно скажется на рейтингах Вашего веб-ресурса – поисковики могут наказать Вас снижением позиций. Поэтому важно убрать дубликаты страниц независимо от их количества.



С чего начать удаление дублей страниц


Для начала рекомендуется выявить причину, по которой появилось дублирование контента. Чаще всего это:


  • Ошибки при формировании структуры веб-ресурса.

     
  • «Проделки» некоторых современных движков для сайтов, которые при неправильных настройках довольно часто автоматически генерируют копии и хранят их под разными адресами.

     
  • Неправильные настройки фильтров поиска по сайту.


Способы решения выявленных проблем


После выяснения причины, по которой появилось дублирование, и ее устранения нужно принять решение касательно того, как убрать дубли страниц. В большинстве случаев подойдет один из этих методов:


  1. Удалить дубли страниц вручную. Этот метод подойдет для небольших веб-ресурсов, содержащих до 100–150 страничек, которые вполне можно перебрать самому.

     
  2. Настроить robots.txt. Подойдет, чтобы скрыть дубликаты страниц, индексирование которых еще не проводилось. Использование директивы Disallow запрещает ботам заходить на ненужные страницы.  Чтобы указать боту Яндекса на то, что ему не следует индексировать странички, содержащие в URL «stranitsa», нужно в robots.txt добавить: 


     

  3. Использовать мета-тег «noindex». Это не поможет удалить дубли страниц, но скроет их от индексирования, как и в предыдущем способе. Прописывается в HTML-коде странички (в разделе head), про которую должны «забыть» поисковики, в таком виде:

    При этом есть один нюанс – если страница-дубликат уже появляется в результатах выдачи, то она будет продолжать это делать до повторной индексации, которая могла быть заблокирована в файле robots.txt.

     

  4. Удаление дублей страниц, используя перенаправление 410. Неплохой вариант вместо предыдущих двух способов. Уведомляет зашедшего в гости робота поисковика о том, что странички не существует и отсутствуют данные об альтернативном документе. Вставляется в файл конфигурирования сервера .htaccess в виде:

    В результате при попытке зайти по адресу страницы-дубля Вы увидите: 


     

  5. Указать каноническую страничку для индексации. Для этой цели используется атрибут rel=”canonical”. Добавляется в head HTML-кода страничек, которые являются ненужными копиями.

    Это не поможет физически избавиться от дублей страниц, а лишь укажет ботам поисковых систем каноническую (исходную), которой нужна индексация.

     

  6. Склеивание страниц. Для этого используется перенаправление 301. Подобный вариант также не поможет убрать дубликаты страниц, но позволит передать нужной страничке до 99% внешнего и внутреннего ссылочного веса. Пример:


Если нет возможности убрать дубли страниц…


… или же Вы не хотите их удалять, можно хотя бы обезопасить странички, которые при помощи внутренней перелинковки связаны с ними. Для этого используется атрибут rel=«nofollow». Если прописать его в ссылках, они больше не будут передавать вес.



 

Теперь Вы знаете достаточно способов того, как убрать дубли страниц. Если умело их комбинировать, Вы сможете добиться, чтобы не осталось ни единого прецедента дублирования контента. Только после этого можно рассчитывать на максимальную эффективность продвижения Вашего сайта.


Если остались вопросы по данной теме, не забудьте их задать в комментариях!


 

Что такое дубли страниц сайта? Как их найти и удалить из выдачи?

Некоторые SEO ошибки критично опасны и могут свести все усилия на нет. Одна из таких — дубли страниц. Они крайне негативно воспринимаются поисковыми роботами и существенно усложняют поисковое продвижение сайта. Поэтому важно убрать дубли страниц на сайте как можно быстрее.

 

Почему это так важно?

 

Когда на веб-сайте есть две одинаковых страницы, поисковики не могут понять, какую из них нужно показывать пользователям по релевантному запросу. И даже учитывая, что боты изучают и другие параметры, им все равно трудно решить, какой из дублей нужно выбирать.

 

Поэтому нужно найти и закрыть дубли страниц сайта, иначе вы столкнетесь с проблемами:

 

  • может снизиться рейтинг всего веб-сайта;
  • снижение позиции ключевых фраз;
  • скачки позиций из-за того, что система постоянно меняет релевантность между несколькими страницами.

 

Виды дубликатов

 

Чтобы эффективно искать дубли страниц и избавляться от них, нужно знать, каких видов они бывают.

 

Существует два типа:

 

  • полные дубликаты — копия страницы, размещенная на разных URL адресах;
  • частичные — дублируется часть содержимого.

 

Полные дубли

 

Это может быть:

 

  • одинаковые страницы по одинаковым URL адресам с www и без;
  • дубли страниц с html и https;
  • копии, созданные из-за реферальных ссылок;
  • проблемы с иерархией разделов, которые генерируют копии;
  • неправильно настроенная страница 404, создающая дубликаты;
  • дубли страниц без слеша в конце url.

 

Частичные дубли

 

Они обычно появляются из-за особенностей системы управления сайтом, и найти их сложнее.

 

Чаще всего это:

 

  • Копии, созданные страницами фильтров, сортировок и пагинации. Например, когда пользователь применяет фильтр товаров, URL адрес немного изменяется, и поисковые роботы индексируют эту страницу как отдельную. Но от смены адреса в данном случае контент не изменился.
  • Блоки комментариев и описаний. Здесь практически та же ситуация — переход к блоку отзывов, например, создает дополнительный параметр в адресе, но страница остается та же.
  • Печать и PDF для загрузки. Такие страницы полностью копируют содержимое веб-сайта.
  • Сгенерированные AJAX слепки страниц.

 

Как обнаружить копии?

 

Можно проверить сайт на ошибки несколькими способами:

 

Промониторить выдачу с помощью оператора “site:”

 

Это метод, позволяющий проверить дубли страниц сайта вручную. Выдачу, отфильтрованную оператором, нужно изучить визуально и выявить копии.

 

Программы

 

Существуют разные инструменты для вебмастеров, позволяющие быстро просканировать веб-сайт. Это может быть проверка сайта на дубли страниц онлайн или с помощью десктопных программ. Они выгрузят полный список адресов, который можно будет затем отсортировать и найти дубликаты.

 

Консоль Google

 

Google Search Console отображает список повторов мета-описаний и тэгов. Они могут быть признаками копий.

 

 

Как избавиться от дубликатов?

 

Первый и самый очевидный метод — удалить дубли страниц со слешем и другими частями URL адреса, которые создают копии. Также можно запретить роботам индексировать дубликаты, дописав условия в файл “robots.txt”. Это сработает со служебными страницами, которые повторяют содержимое основных.

 

Еще одно решение — настроить 301 редирект со страницы-дубля на соответствующую корректную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками. Также можно проставить тэг “rel=canonical”, что решит проблему с фильтрами, сортировками и пагинацией. А если у вас на веб-сайте есть версии для печати, блоки с отзывами и другой информацией, воспользуйтесь тегом meta name=»robots» content=»noindex, nofollow». Это позволит скрыть подобные блоки от поисковых ботов.

 

Чаще всего копии создаются самой системой управления сайтом, поэтому лучше, чтобы выявлением дубликатов и их устранением занимался опытный специалист. Наша команда веб-студии Артджокер обладает большим опытом и крепкими знаниями в поисковой оптимизации и продвижении сайтов. Мы сможем обнаружить все ошибки, которые мешают раскрутке вашего ресурса, и исправить их. Также мы составим эффективную стратегию продвижения, которая позволит быстро добиться желаемых результатов.

Дубли страниц на сайте, способовы поиска и методы устранения

К рамкам технической оптимизации относится поиск, выявление и удаление копий. Дубли — это страницы, которые обладают идентичным или частично совпадающим контентом, но доступ к ним можно получить по разным целевым. 

Если такие разделы существуют на сайте, то системы поиска будут неправильно их ранжировать, а значит такой материал нужно как можно раньше выявить, а после удалить. 

Как появляются 

Бывают «полные» и «частичные» дубликаты или иногда их называют «явные» и «неявные». Первые полностью совпадают по всем показателям, а вторые совпадают лишь частично. Зачастую дубли страниц возникают на сайте из-за особенности работы CMS, некорректной настройки 301-редирект или ошибок в файле «robots.txt». Также копии могут появиться по следующим причинам:

  • Доступ к сервису через префикс «www» или без него. Если не указать главную версию проекта, то произойдет конфликт с выбором главного зеркала сайта. А значит, что машины будут воспринимать ресурс с «www» и без него в качестве двух разных площадок. Зачастую такие случаи решают при помощи Google Search Console или Яндекс.Вебмастер. 
  • С протоколами http и https. Здесь происходит примерно такая же ситуация, как с «www». Если вовремя не настроить какая целевая будет главной, то произойдет появление зеркал. Это снижает уникальность контента, а также снижает позиции площадки в выдаче. 
  • Целевая может оканчиваться на слэш, а может быть без него. В таких ситуация создается полный дубликат. Поисковики индексируют оба раздела, которые наполнены идентичным контентом. По итогу вносят сайт в бан или понижают его вы выдаче по запросам. Какой вариант предпочтительнее (со слэшом или без него) решает веб-мастер: если больше проиндексировано материала без слэша, то лучше все страницы подвести под единое правило. 
  • Копии по ссылкам: http://site.com/index, http://site.com/index/, http://site.com/index.php, http://site.com/index.php/, а также другие похожие варианты. Одна из этих ссылок должна быть главной по умолчанию. 
  • Структура сайта изменилась, но сохранились старые страницы. Здесь ссылки  могут не совпадать совершенно, но контент, мета-данные, товар остались таким же, как на новых. Это приводит к полному дубляжу материала. 
  • Ошибки, которые возникают при нарушении иерархии адреса. По примеру https://site.com/category/tovar/ и https://site.com/tover/category/. Дублируется часто полностью мета, контент, параметры. 
  • Страницы с utm-метками и параметрами «gclid». Метки нужны для передачи дополнительной информации в системы контекстной рекламы или статистики. Обычно они не должны индексироваться поисковиками, но бывают ситуации, когда удается встретить полный дубликат с utm-метками. 
  • Пагинация сайта, а также дубликаты, которые создаются фильтрами. В таких ситуациях выводится товарный ассортимент на странице «категория». При этом сам раздел меняет свой урл-адрес, но SEO-тексты, заголовки, мета-информация, весь прочий контент сохраняется. То есть происходит частичное копирование данных. 
  • Создание отдельных страниц для взаимодействия с блоками под комментарии, характеристики или отзывы. При выборе «оставить комментарий» или какого-либо тега с характеристиками происходит добавление параметра в адресную строку, но контент не меняется, то есть происходит частичное копирование. 
  • Версии для PDF-печати. Страницы для печатей копируют SEO-данные. Это приводит к снижению уникальности или даже бану. Также относятся к категории частичных дублей. 

Какой вред наносят 

Когда на платформе существует два идентичных макета, то системы не понимают что именно нужно выдавать по запросу, поэтому система ранжирования часто работает неправильно, а значит проект начнет со временем терять свои позиции в выдаче. Важно находить и удалять копии, а иначе можно столкнуться с рядом проблем:

  • Понижение рейтинга площадки в целом, а не только его некоторых разделы.

Например, на проекте «site.com/catalog/phone» расположено большое количество товаров, вся необходимая информация, контент о них, включая мета-данные. В эту же страницу вкладывают деньги для продвижения и рекламы. По итогу она попадает в топ выдачи, а значит системы индексируют ее хорошо. Однако в какой-то момент ЦМС создает аналог «site.com/phone». Данная страница ранжируется плохо, привлекает мало пользователей, никаких действий для ее продвижения не ведется. После роботы для поиска по запросам видят, что происходит ухудшение просмотров, и значит начинают исключать из выдачи дубликат и оригинал. Роботы внимательнее относятся к остальному материалу и, если ситуация повторяется, то понижают рейтинг сервиса. 

  • Скачки в выдаче, так как поисковики все время меняют релевантность между одинаковыми материалами. 

Это достаточно плохо для целевой. Во-первых, по ней начнут меньше переходить посетителей. Во-вторых, если вторая целевая частично дублирует материал, то на ее обнаружение уйдет больше времени, но когда ее найдут, то выяснить, какая из двух приносит больше трафика и что будет с посетителями с другой похожей страницей неясно, а значит выбрать что лучше и что нужно удалить будет сложнее. В-третьих, даже после удаления дубля, может быть так, что вернуть прежние показатели будет невозможно или очень трудно. 

  • Снижение уникальности работ на площадке. 

Большинство маркетологов, контентщиков, аналитиков знает, что чем ниже уникальность работ, тем неохотнее системы выдают платформу в выдаче по запросам. При этом те ресурсы, которые предоставляют уникальную информацию и контент по ключевым словам почти всегда попадают в первые строки выдачи. 

  • Снижение позиций ключевых слов или фраз.

Похожая система со снижением уникальности. Ключевые слова и фразы просто перестают восприниматься поисковыми системами, так как материал с одинаковыми ключевиками встречаются на большом количестве страниц и внедрены они в неуникальный текст. 

  • Увеличение времени на индексацию. 

На сканирование каждого ресурса у поисковых роботов есть краулинговый бюджет. Если дубликатов много, то робот может просто не добраться до нужной страницы. Такая проблема очень велика для крупных интернет-магазинов и холдингов, у которых тысячи или десятки тысяч разделов с похожим материалов, товарами или разделами.  

  • Бан от поисковых систем. 

Здесь стоит отметить, что копии — это не повод наложения санкций со стороны поисковиков, но вот их большое количество воспринимается последними как намеренное решение, чтобы увеличить количество позиций в выдаче. 

  • Проблемы для веб-мастера. 

Чем дольше откладывается работа по нахождению и устранению дублей, тем больше их накопится, а риск негативных последствий для ресурса также растет. 

Стоит отметить, что полные копии с точки зрения SEO несут критическую и резкую опасность. Роботы воспринимают их враждебно, при этом не имеет значения, какой запрос был задан. Они вызывают потерю по ранжированию или даже наложению фильтра пессимизирующего всю площадку. 

Частичные дубликаты не приводят к полной потери ранжирования резко или заметно для менеджеров, но делают это поступательно медленно, так, что владелец ресурса может этого до определенного момента даже не замечать. Это говорит о том, что найти их сложнее, а вред от них даже куда выше, чем от полных дублей.  

Как найти дубли

Существует несколько способов обнаружения дублей. Чаще всего для этих целей используют:

  • Мониторинг сайта через оператора «site». Часто используют для анализа проектов конкурентов. Чтобы проверить дубли страниц на сайте и провести анализа своей платформы онлайн в поисковой строке нужно ввести команду «site:site.com/catalog». Здесь можно увидеть перечень адресов всего проекта, включая те, которые дублируются. Также, если нужно проверить дубляж определенных страниц, для этого стоит в поисковой строке в ссылке добавить нужный запрос и проверить нет ли одинакового материала. Например, «site:site.com/catalog/белый телефон». 
  • Программы-парсеры: Screaming Frog, Xenu, PromoPult. Например, для работы с программой Screaming Frog вбивают ссылку, которая ведет на сайт, после запускают сканирование, где приложение собирает информацию о площадке. После запускают вкладку «Page Title→Duplicate» и происходит вывод страниц, которые нужно проанализировать вручную.   
  • Онлайн-платформы. Чтобы провести поиск дублей страниц сайта онлайн, можно использовать ApollonGuru. Работа с этим сервисом крайне простая, даже интуитивно понятная. В поле «Поиск дублей» вносят ссылки тех разделов, которые надо проверить. Сервис проводит анализ и выдает результат. Если напротив ссылки появляется значение «200», то их нужно брать в работу, так как они имеют полный или частичный скопированный материал. 
  • Google Webmaster: «Вид в поиске» → «Оптимизация HTML» или Google Webmaster: «Сканирование» → «Оптимизация HTML». Здесь инструменты помогают найти целевые с одинаковым Title и Description. Для работы с Вебмастером нужно указать ссылку сайта, открыть раздел «Вид в поиске» и выбрать «Оптимизация HTML». Инструмент «Параметры URL» позволяет задать параметры, которые нужно индексировать, сканировать. После анализа платформы, нужно выявить копии, а после заняться удалением. 
  • Яндекс.Вебмастер: «Индексирование» → «Страницы в поиске». Вебмастер от Яндекса работает похожим образом. Программа предоставляет также функции индексирования, сканирования проекта или отдельных макетов. 
  • Ручной поиск. Опытные веб-мастера способны уже предположить, где могут быть дубли, а также выявить большинство из них вручную. При этом они могут использовать дополнительные приложения, самописные программы и многое другое. 

Как убрать дубли

Можно бороться с дублирующим материалом разными способами. Самыми популярными остаются те, которые вызывают большинство дубликатов: настройка 301 редирект, создание канонической страницы, директива Disallow в robots.txt.

301 редирект

Неплохое решение для случаев с рефф-метками и ошибками в иерархии адресов. 

Если же CMS позволяет, то редиректы можно настраивать вручную даже без помощи программиста, например, UMI предоставляет такую возможность. Однако большинство площадок требуют вмешательства программиста с опытом работы в этой сфере. 

Настраивают 301 редирект в файле htaccess. Например, для отдельной страницы используют: Redirect 301 %old_url% %new_url%

%old_url% — это старая ссылка страницы без домена

%new_url% — это новый адрес, где указывают домен.  

При этом нужно запомнить, что поисковые системы не удаляют из индексации страницу, с которой происходит редирект, но и не добавляют в индекс страницу, которая получила редирект. 

Каноническая страница

Использовать тег «rel-canonical» стоит. Он дает поисковикам понять, что перед ней именно та каноническая страница, которую нужно обрабатывать и выдавать. 

Чтобы дать понять, что перед поисковиком такая страница, нужно на все копии добавить тег с ссылкой оригинальной страницы:

<link rel= “canonical” href= “http://www.site.com/original-page.html”&gt;

Этот тег хорошо понимают машины. Кроме того, важно помнить, что добавлять такие теги можно и на посадочные страницы, которые являются основными для сайта с точки зрения SEO. 

Чтобы на всех страницах прописать каноничность, то стоит использовать плагины. Например, для WordPress используют YoastSEO или AllinOneSEOPack.

С Bitrix ситуация сложнее. Для этой CMS нужно использовать язык программирования PHP в соответствующих файлах. 

Директива Disallow в robots.txt.

Используют для борьбы со служебными страницами, которые частично или полностью дублируют контент посадочных. Часто сюда попадают адреса со слэшами и другими частями URL-адресов, которые создают копии. 

Работает это следующим образом: Если на сайте есть копии, можно запретить их индексировать с помощью условия Disallow, который вписывают в файл «robots.txt». Например, в robots.txt прописать «Disallow:/tovar/whitephone/», после этого роботы поисковых систем не будут индексировать раздел с таким адресом.  

Советы вместо заключения

  • Старайтесь всегда создавать уникальный URL-адрес для каждой целевой.
  • Указывайте, какая из страниц пагинации, фильтрации является целевой и рекламируйте ее.
  • Выявляйте, какая из целевых приносит больше трафика, делайте ее главной, а копию или копии удаляйте. 
  • Если нет опыта поиска дубликатов и разбираться в том, как убрать дубли страниц на сайте нет времени, то можно нанять на работу сотрудников, которые разбираются в сфере, а значит смогут сделают работу за вас. 

Дублирование страниц — Вебмастер. Справка

Если страницы сайта доступны по разным адресам, но имеют одинаковое содержимое, робот Яндекса может посчитать их дублями и объединить в группу дублей.

Примечание. Дублями признаются страницы в рамках одного сайта. Например, страницы на региональных поддоменах с одинаковым содержимым не считаются дублями.

Если на сайте есть страницы-дубли:

  • Из результатов поиска может пропасть нужная вам страница, так как робот выбрал другую страницу из группы дублей.

    Также в некоторых случаях страницы могут не объединяться в группу и участвовать в поиске как разные документы. Таким образом конкурировать между собой. Это может оказать влияние на сайт в поиске.

  • В зависимости от того, какая страница останется в поиске, адрес документа может измениться. Это может вызвать трудности при просмотре статистики в сервисах веб-аналитики.

  • Индексирующий робот дольше обходит страницы сайта, а значит данные о важных для вас страницах медленнее передаются в поисковую базу. Кроме этого, робот может создать дополнительную нагрузку на сайт.

  1. Как определить, есть ли страницы-дубли на сайте
  2. Как избавиться от страниц-дублей

Страницы-дубли появляются по разным причинам:

  • Естественным. Например, если страница с описанием товара интернет-магазина присутствует в нескольких категориях сайта.

  • Связанным с особенностями работы сайта или его CMS (например, версией для печати, UTM-метки для отслеживания рекламы и т. д.)

Чтобы узнать, какие страницы исключены из поиска из-за дублирования:

  1. Перейдите в Вебмастер на страницу Страницы в поиске и выберите Исключённые страницы.
  2. Нажмите значок и выберите статус «Удалено: Дубль».

Также вы можете выгрузить архив — внизу страницы выберите формат файла. В файле дублирующая страница имеет статус DUPLICATE. Подробно о статусах

Если дубли появились из-за добавления GET-параметров в URL, об этом появится уведомление в Вебмастере на странице Диагностика.

Примечание. Страницей-дублем может быть как обычная страница сайта, так и ее быстрая версия, например AMP-страница.

Чтобы оставить в поисковой выдаче нужную страницу, укажите роботу Яндекса на нее . Это можно сделать несколькими способами в зависимости от вида адреса страницы.

Контент дублируется на разных URLКонтент главной страницы дублируется на других URLВ URL есть или отсутствует / (слеш) в конце адресаВ URL есть несколько / (слешей)URL различаются значениями GET-параметров, при этом контент одинаковВ URL есть параметры AMP-страницы

Пример для обычного сайта:

http://example.com/page1/ и http://example.com/page2/

Пример для сайта с AMP-страницами:

http://example.com/page/ и http://example.com/AMP/page/

В этом случае:

  • Установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

    Также вы можете ограничить AMP-страницы, которые дублируют контент страниц другого типа.

Чтобы определить, какая страница должна остаться в поиске, ориентируйтесь на удобство посетителей вашего сайта. Например, если речь идет о разделе с похожими товарами, вы можете выбрать в качестве страницы для поиска корневую или страницу этого каталога — откуда посетитель сможет просмотреть остальные страницы. В случае дублирования обычных HTML и AMP-страниц, рекомендуем оставлять в поиске обычные HTML.

https://example.com и https://example.com/index.php

В этом случае:

Рекомендуем устанавливать перенаправление с внутренних страниц на главную. Если вы настроите редирект со страницы https://example.com/ на https://example.com/index.php, контент страницы https://example.com/index.php будет отображаться по адресу https://example.com/ — согласно правилам обработки редиректов.

http://example.com/page/ и http://example.com/page

В этом случае установите редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. Тогда в поиске будет участвовать цель установленного редиректа.

Не рекомендуем в этом случае использовать атрибут rel=canonical, так как он может игнорироваться. При редиректе пользователи будут попадать сразу на нужный URL страницы.

Если проблема на главной странице, настраивать на ней ничего не нужно. Поисковая система распознает страницы http://example.com и http://example.com/ как одинаковые.

Яндекс индексирует ссылки со слешем на конце и без одинаково. При выборе URL, который останется в поиске, нужно учесть, по какому адресу сейчас индексируются страницы, если редирект еще не был установлен. Например, если в поиске уже участвуют страницы без слеша, стоит настроить перенаправление со страниц со слешем на ссылки без слеша. Это позволит избежать дополнительной смены адреса страниц в поиске.

http://example.com/page////something/

В этом случае поисковая система убирает дублирующиеся символы. Страница будет индексироваться по адресу http://example.com/page/something/.

Если в URL есть \ (например, http://example.com/page/something/\\\\), поисковая система воспринимает такую страницу как отдельную. Она будет индексироваться по адресу http://example.com/page/something/\\\\.

В этом случае:

  • Установите редирект с HTTP-кодом 301 с одной страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа.

  • Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.
  • Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы.

    Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода.

Используйте рекомендации, если различия есть в тех параметрах, которые не влияют на контент. Например, такими параметрами могут быть UTM-метки:

https://example.com/page?utm_source=instagram&utm_medium=cpc

В этом случае добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал параметры в URL. Если в Вебмастере отображается уведомление о дублировании страниц из-за GET-параметров, этот способ исправит ошибку. Уведомление пропадет, когда робот узнает об изменениях.

Совет. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла. Если вы указываете другие директивы именно для робота Яндекса, перечислите все предназначенные для него правила в одной секции. При этом строка User-agent: * будет проигнорирована.

Пример директивы Clean-param
#для адресов вида:
example.com/page?utm_source=instagram&utm_medium=cpc
example.com/page?utm_source=link&utm_medium=cpc&utm_campaign=new

#robots.txt будет содержать:
User-agent: Yandex
Clean-param: utm /page
#таким образом указываем роботу, что нужно оставить в поиске адрес https://example.com/page

#чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:
User-agent: Yandex
Clean-param: utm

Если у вас нет возможности изменить robots.txt, укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске.

http://example.com/page/ и http://example.com/page?AMP

В этом случае добавьте директиву Clean-param в файл robots.txt, чтобы робот не учитывал параметры в URL.

Если AMP-страницы формируются не GET-параметром, а при помощи директории формата /AMP/, их можно рассматривать как обычные контентные дубли.

Робот узнает об изменениях, когда посетит ваш сайт. После посещения страница, которая не должна участвовать в поиске, будет исключена из него в течение трех недель. Если на сайте много страниц, этот процесс может занять больше времени.

Проверить, что изменения вступили в силу, можно в Яндекс.Вебмастере на странице Страницы в поиске.

Дубли страниц на сайте — как найти и удалить

Что такое дубли страниц?

Дубли страниц на сайте — это грубая SEO-ошибка, которая характеризуется тем, что контент одной страницы полностью
идентичен содержанию другой. Таким образом, они в точности копируют друг друга, но при этом доступны по разным
URL-адресам.

Самые частые причины возникновения дублей:

  1. Не сделан редирект страниц, имеющих адреса с www и без www. В этом случае каждая страница сайта будет
    дублироваться, так как остается доступной по двум адресам, например:

    http://www.site.ru/page и http://site.ru/page

  2. Страницы сайта доступны по адресу со слэшем и без слэша:

    http://site.ru/page/ и http://site.ru/page

  3. Также URL страницы может быть с .php и .html на конце либо без расширения. Как правило, это связано с
    особенностями cms (административной панели сайта):

    http://site.ru/page.html и http://site.ru/page; http://site.ru/page.php и http://site.ru/page

  4. Отдельно стоит выделить неполные дубли страниц. В этом случае контент на двух разных страницах не будет
    идентичным на 100%. Сходство и дублирование может появляться по причине того, что некоторые блоки на сайте
    являются сквозными — например, это может быть блок о доставке, который отображается на страницах всех товаров.
  5. Некоторые карточки со схожими товарами содержат идентичное описание, что также может рассматриваться как грубая
    ошибка.
  6. Постраничная пагинация каталога с товарами. В этом случае текст и МЕТА-теги на всех страницах одной категории
    могут быть одинаковыми.

Как дубли влияют на ранжирование?

Дубли негативно влияют на ранжирование вашего сайта — за наличие дубликатов страниц интернет-ресурс может с большой
степенью вероятности подвергнуться пессимизации со стороны поисковых систем.

  1. Яндекс и Google очень трепетно относятся к уникальности контента на web-ресурсах. В случае, если данные на
    страницах дублируются, они признаются неуникальными. За это на сайт могут быть наложены санкции.
  2. Наличие большого количества дублей страниц сильно усложняет процесс индексации сайта и запутывает поисковых
    роботов.
  3. Затрудняется продвижение посадочных страниц, так как поисковая система не может выбрать релевантную страницу из
    двух одинаковых.
  4. Теряется «вес» страниц, поскольку распределяется между двумя одинаковыми документами.

Подробно описывается негативное влияние дублей и методы борьбы с ними в статье Google «Консолидация повторяющихся URL»

Яндекс, в свою очередь, предлагает на эту тему видеоурок «Поисковая оптимизация сайта: ищем дубли страниц», где разъясняется терминология и
способы решения проблемы.

Как обнаружить дубли у себя на сайте?

С этим могут возникнуть трудности не только у обладателей больших web-ресурсов, но и у владельцев совсем небольших
сайтов, так как некоторые дубли, возникающие из-за особенностей и ошибок CMS, очень сложно обнаружить. Быстро и без
лишних трудозатрат найти дубли страниц можно с помощью сервиса Labrika. Для этого нужно посмотреть соответствующий
отчет. Находится он в подразделе «Похожие страницы» раздела «SEO-аудит» в левом боковом меню:

В отчете вы можете увидеть следующую информацию:

  1. Страница сайта, которая имеет дубль.
  2. Дубль этой страницы
  3. Процент схожести страниц. Благодаря этому проценту вы сможете определить, является ли дубль страницы полным.

Получив данные из отчета, вы сможете сэкономить время и сразу начать устранять эти ошибки.

Как устранить дубли на сайте?

В первую очередь, необходимо установить характер дубля и уже после этого выбирать способ его устранения.

  1. Если дублей на сайте небольшое количество и их происхождение связано с ошибками CMS (допустим, страница доступна
    по адресам http://site.ru/category/tovar и http://site.ru/tovar, то самым простым
    методом решения проблемы будет следующий. Дубль необходимо запретить для индексации поисковых систем в robots.txt (также см.
    информацию о robots.txt от
    Google). Затем воспользоваться формой удаления URL из индекса в Яндекс.Вебмастер — https://webmaster.yandex.ru/tools/del-url/ и инструментом аналогичного назначения в
    Google Webmaster — https://www.google.com/webmasters/tools/url-removal. Подробнее про использование
    инструмента от Google вы можете прочитать здесь.
  2. Если появление дубликатов носит системный характер и связано с такими ошибками, как, например, несклеенный домен
    (страница доступна по адресу с www и без www), то в таком случае необходимо выбрать главное
    зеркало (например, адрес сайта без www), воспользоваться командой 301
    redirect (перенаправление со страниц с www на страницы без них), которая прописывается в
    специальном файле htaccess.
  3. В случае, если вы имеете дело с постраничной пагинацией товаров одной категории, Яндекс советует использовать
    атрибут rel=»canonical». Более подробно о применении этого атрибута на страницах с
    пагинацией вы можете прочитать в статье Блога Яндекс «Несколько советов интернет-магазинам по настройкам индексирования».

Новости и статьи » Как убрать или закрыть дубли страниц от индексации

Дубликаты страниц на сайте негативно влияют на продвижение сайтов в поисковых системах. Поэтому их нужно находить, а дальше устранять или закрывать от индексации.

В данном посте мы детально рассмотрим, как же можно закрыть дубли страниц от индексации или их устранить.

 

1. Rel «canonical»

Для начала нужно разобраться, что такое каноническая страница – это рекомендуемый экземпляр из набора страниц с практически походим содержанием.

С помощью тега rel «canonical» можно закрыть дубликаты страниц и практика показывает, что в последнее время все больше seo оптимизаторов применяют тег на крупных сайтах. 

 

2. Robots.txt

С его помощью можно закрыть дублирующий контент от индексации. Необходимо использовать директиву disallow, и указывать какие типы страниц или разделов не нужно индексировать, чтобы их не обходил поисковый бот. С помощью robots закрывают страницы от индексации чаще всего, так как это удобнее и привычнее многим вебмастерам, но опять же всегда зависит от ситуации.

 

3. 301 редирект

С помощью 301-го редиректа можно склеить похожие страницы. Идентичные страницы, и это плохо для продвижения, нужно оставить какой-то один вариант, а второй, чтобы перенаправлялся на тот, что мы выбрали. Это частая ошибка на многих сайтах, на которую не обращают внимание, а такой дубль влияет на ранжирование сайта.

Многие системы управления сайтом сразу учитывают этот момент, но не все, и поэтому если мы обнаружили дубликаты, мы закрываем его с помощью 301-го редиректа, где в файле .htaccess прописываем какие страницы на какие перенаправлять.

 

4. Ручное удаление страниц

Ручное удаление страниц подходит для небольших сайтов, или для сайтов в которых системы управления имеют нормальные возможности. Все что нужно сделать найти страницы, и удалить их или через систему управления, или если это статический сайт то через FTP.

 

Выводы: дубликаты страниц важно закрывать или удалять вовсе, поскольку поисковые системы могут наложить санкции на сайт за дублированный контент.

Как найти и удалить повторяющийся контент

При внедрении поисковой оптимизации (SEO) и внесении полезных обновлений на свой веб-сайт вы можете непреднамеренно создать другие проблемы в процессе. Одной из таких проблем может быть дублированный контент, который, если его оставить без внимания, со временем может нанести ущерб вашей SEO-ценности и ранжированию в поисковых системах.

В этой статье вы узнаете, как найти повторяющийся контент, что обычно вызывает дублирование контента и как удалить его со своего сайта.

Прочитайте или перейдите к разделу, о котором вы хотите узнать больше:

Влияние на поисковую оптимизацию и рейтинги 
Как найти повторяющийся контент 
Причины дублирования контента
Способы удаления дублирующегося контента

 

Что такое дублированный контент?

Дублированное содержимое возникает, когда уже существующую веб-страницу можно найти по нескольким URL-адресам. Когда на сайте есть дублированный контент, поисковые системы могут запутаться в том, какой URL-адрес является исходным или предпочтительным фрагментом контента.

Влияние на SEO и рейтинги

Из-за того, что дублированный контент вызывает путаницу у роботов поисковых систем, любое ранжирование, ссылочный вес и авторитет страницы, которые получает страница, могут в конечном итоге быть разделены между дублированными URL-адресами. Это происходит потому, что роботам поисковых систем остается выбирать веб-страницу, которая, по их мнению, должна ранжироваться по определенному ключевому слову, и они не всегда выбирают один и тот же URL-адрес каждый раз. Это приводит к тому, что каждый вариант URL-адреса получает разные ссылки, рейтинг авторитетности страницы и силу ранжирования.

На протяжении многих лет возникало много путаницы по поводу того, наказывает ли Google (и другие поисковые системы) сайты с дублирующимся контентом. Не волнуйтесь, они не штрафуют сайты!

Google понимает, что подавляющее большинство дублированного контента создается непреднамеренно — 50% веб-сайтов имеют проблемы с дублированием контента! Однако, поскольку Google стремится показывать в результатах поиска разнообразный набор веб-сайтов, а не один и тот же фрагмент контента дважды, их роботы-сканеры вынуждены выбирать, какую версию ранжировать.Этот выбор косвенно вредит SEO и рейтингу вашей веб-страницы.

Дублирование контента на вашем сайте может привести к трем основным проблемам:

  1. Низкий рейтинг результатов поиска
  2. Плохой пользовательский интерфейс
  3. Снижение органического трафика

Чтобы удалить дублированный контент с вашего веб-сайта и предотвратить дальнейший ущерб SEO, вам сначала нужно найти дублированные страницы.

 

Как найти повторяющийся контент

Существует несколько способов найти дублирующийся контент на вашем сайте.Вот три бесплатных способа найти повторяющийся контент, отслеживать, какие страницы имеют несколько URL-адресов, и выяснить, какие проблемы вызывают дублирование контента на вашем сайте. Это пригодится, когда вы удалите дубликаты страниц.

Консоль поиска Google

Google Search Console — мощный бесплатный инструмент в вашем распоряжении. Настройка Google Search Console для SEO поможет обеспечить видимость эффективности ваших веб-страниц в результатах поиска. Используя вкладку «Результаты поиска» в разделе «Производительность», вы можете найти URL-адреса, которые могут вызывать проблемы с дублированием контента.

Обратите внимание на следующие распространенные проблемы:

  • Версии HTTP и HTTPS одного и того же URL-адреса
  • версии одного и того же URL-адреса с www и без www
  • URL-адреса с завершающей косой чертой «/» и без нее
  • URL-адреса с параметрами запроса и без них
  • URL-адреса с заглавными буквами и без них
  • Длинные запросы с ранжированием нескольких страниц

Вот пример того, что вы можете найти:

На изображении выше видно, что HTTP- и HTTPS-версии домашней страницы Blue Frog ранжируются в результатах поиска и получают клики.

http://www.bluefrogdm.com/                      https://www.bluefrogdm.com/

Следите за обнаруженными URL-адресами с проблемами дублирования. Мы рассмотрим способы их исправления позже!

«Сайт:» Поиск

Перейдя к поиску Google и введя «сайт:», а затем URL-адрес вашего веб-сайта, вы можете увидеть все страницы, проиндексированные Google, и иметь потенциал для ранжирования в результатах поиска.

Вот что появляется, когда вы вводите «site:bluefrogdm.com/blog» в строку поиска Google:

Как видите, появились две почти идентичные страницы блога Blue Frog. Это важно отметить: хотя эти страницы технически не являются дубликатами страниц, они содержат один и тот же тег заголовка и метаописание, что может привести к каннибализации ключевых слов и конкуренции между двумя страницами в рейтинге, аналогичным проблемам, с которыми сталкиваются дублирующие страницы.

Средство проверки дубликатов содержимого

SEO Review Tools создали эту бесплатную программу проверки дублированного контента, чтобы помочь веб-сайтам бороться с очисткой контента.Введя свой URL-адрес в их инструмент проверки, вы можете получить обзор внешних и внутренних URL-адресов, которые дублируют введенный URL-адрес.

Вот что обнаружилось, когда я вставил в чекер « https://www.bluefrogdm.com/»:

Обнаружение внешнего дублированного контента очень важно. Внешний дублированный контент может возникать, когда другой домен веб-сайта «ворует» контент вашего сайта, что также известно как очистка контента. При обнаружении вы можете отправить запрос на удаление в Google и удалить дублированную страницу.

 

Причины дублирования контента

Существует множество причин, по которым может создаваться дублированный контент (в основном непреднамеренно). Понимание различных вариантов URL-адресов, которые могут существовать, может помочь вам идентифицировать собственные URL-адреса с повторяющимися страницами.

Совет: Когда вы обнаружите URL-адреса с дублирующимся содержимым, обратите внимание на другие аспекты URL-адресов вашего веб-сайта, которые могут нуждаться в оптимизации!

Варианты URL

Изменения в URL-адресах могут происходить из-за идентификаторов сеанса, параметров запроса и использования заглавных букв.Когда в URL-адресе используются параметры, которые не изменяют содержимое страницы, это может привести к созданию дублированной страницы.

Например: https://bluefrogdm.com/blog/local-seo-series/ и https://bluefrogdm.com/blog/local-seo-series/?source=ppc оба ведут к точному одна и та же страница, но доступ к ним осуществляется по разным URL-адресам, что приводит к дублированию страницы с контентом.

Идентификаторы сеанса

работают аналогичным образом. Чтобы отслеживать посетителей на вашем сайте, вы можете использовать идентификаторы сеансов, чтобы узнать, что пользователь делал, пока был на сайте, и куда он ходил.Для этого идентификатор сеанса добавляется к URL-адресу каждой страницы, на которую они нажимают. Добавленный идентификатор сеанса создает новый URL-адрес той же страницы и, таким образом, считается дублирующим содержимым.

Заглавные буквы часто не добавляются намеренно, но важно убедиться, что ваши URL-адреса согласованы и используют строчные буквы. Например, bluefrogdm.com/blog и bluefrogdm.com/blog будут считаться дублированными страницами.

HTTP против HTTPS и www против без www

Когда вы добавляете SSL-сертификаты на свой сайт, вы защищаете свой сайт, что дает вам возможность использовать HTTPS вместо HTTP.Однако это приводит к тому, что на каждом из них появляются дубликаты страниц вашего веб-сайта. Точно так же содержимое вашего веб-сайта доступно как с URL-адресов с www, так и без www.

Следующие URL-адреса ведут на одну и ту же страницу, но будут считаться совершенно разными URL-адресами для сканеров поисковых систем:

https://bluefrogdm.com                               http://bluefrogdm.com
www.bluefrogdm.com                                                bluefrogdm

Должна быть доступна только одна из вышеуказанных версий; все остальные должны быть перенаправлены на предпочтительную версию.

Очищенное или скопированное содержимое

Когда другие веб-сайты «воруют» контент с другого сайта, это называется парсингом контента. Если Google или другие поисковые системы не могут идентифицировать исходный контент, они могут ранжировать страницу, скопированную с вашего сайта.

Скопированный контент часто встречается на сайтах, где продукты указаны с описанием производителя. Если один и тот же продукт продается на нескольких сайтах и ​​все сайты используют описания производителя, дублированный контент можно найти на нескольких страницах разных сайтов.

 

способов удалить повторяющийся контент

Удаление повторяющегося контента поможет вам убедиться, что правильная страница доступна и проиндексирована сканерами поисковых систем. Однако вы можете не захотеть полностью удалять все типы дублированного контента. В некоторых случаях вы просто хотите сообщить поисковым системам, какая версия является оригинальной. Вот несколько способов управления дублирующимся контентом на вашем сайте:

Rel = тег «канонический»

Атрибут rel = canonical — это фрагмент кода, сообщающий поисковым роботам, что страница является дублированной версией указанного URL-адреса.Затем поисковые системы отправят все ссылки и ранжирование на указанный URL-адрес, так как они будут считать его «оригинальным» фрагментом контента.

Обратите внимание: использование тега rel = canonical не удалит дубликат страницы из результатов поиска, он просто сообщит роботам поисковых систем, какая из них является оригинальной и куда должны направляться показатели контента и ссылочный вес.

Rel = канонические теги целесообразно использовать, когда нет необходимости удалять повторяющуюся версию, например URL-адреса с параметрами или косой чертой в конце.

Вот пример из сообщения в блоге HubSpot:

Как видите, HubSpot указал, что исходная версия страницы — blog.hubspot.com/marketing/a-brief-history-of-search-seo . Это сообщает поисковым системам, что просмотр страницы должен осуществляться по этому URL-адресу, а не по длинному URL-адресу с параметрами отслеживания в конце.

301 перенаправление

Использование перенаправления 301 — лучший вариант, если вы не хотите, чтобы дублированная страница была доступна.Когда вы реализуете перенаправление 301, оно сообщает поисковому роботу, что весь трафик и значения SEO должны идти со страницы A на страницу B.

Решая, какую страницу оставить и какие страницы перенаправить, ищите страницу, которая является наиболее эффективной и наиболее оптимизированной. Когда вы берете несколько страниц, конкурирующих за позиции в рейтинге, и объединяете их в один фрагмент контента, вы создаете более сильную и релевантную страницу, которую предпочтут поисковые системы и пользователи.

Переадресация 301 может помочь не только с дублированием контента, следуйте этим советам, чтобы настроить и использовать переадресацию 301, чтобы улучшить SEO.

Углубитесь в SEO и локальное SEO, загрузив контрольный список Local SEO!

Роботы Мета Noindex, Follow Tag

Метатег robots — это фрагмент кода, который вы добавляете в HTML-заголовок страницы, которую хотите исключить из индексов поисковых систем. Когда вы добавляете код «content=noindex, follow», вы указываете поисковым системам сканировать ссылки на странице, но это также не позволяет им добавлять эти ссылки в свои индексы.

Мета-тег robots noindex особенно удобен при обработке дублированного контента разбиения на страницы. Разбиение на страницы происходит, когда содержимое охватывает несколько страниц, что приводит к нескольким URL-адресам. Добавление кода «noindex, follow» на страницы позволит роботам поисковых систем сканировать страницы, но не будет ранжировать страницы в результатах поиска.

Вот пример дублирования контента в результате нумерации страниц:

На изображении выше видно, что блог Blue Frog содержит несколько страниц контента, поэтому эти страницы появляются в результатах поиска.Добавление метатега robots позволит по-прежнему сканировать эти страницы, но предотвратит их появление в результатах поиска.

 

Дополнительные советы по предотвращению дублирования контента

Чтобы предотвратить создание некоторого дублированного контента, убедитесь, что вы активно настраиваете свои страницы. Вот две вещи, которые вы можете сделать, чтобы предотвратить создание дублированного контента:

Согласованность внутренних ссылок

Хорошая стратегия внутренней перелинковки важна для повышения вашей ценности SEO на странице.Однако важно убедиться, что вы соблюдаете структуру URL-адресов в своей стратегии связывания.

Например, если вы решили, что каноническая версия вашей домашней страницы — www.bluefrogdm.com/ , то все внутренние ссылки на домашнюю страницу должны иметь номер https://www.bluefrogdm.com/ , а не https:/ /bluefrogdm.com/ (разница в отсутствии домена верхнего уровня www).

Поддерживайте согласованность со следующими распространенными вариантами URL-адресов:

  • HTTP против HTTPS
  • www против
  • без www

  • Косая черта в конце: пример.com против example.com/

Если одна внутренняя ссылка использует косую черту в конце, а другая ссылка на ту же страницу — нет, вы создадите дубликат содержимого страницы.

Использовать самореферентный канонический тег

Чтобы предотвратить очистку содержимого, вы можете добавить метатег rel=canonical, указывающий на URL-адрес, по которому уже находится страница; это создает самоканоническую страницу. Добавление тега rel=canonical сообщит поисковым системам, что текущая страница является исходным контентом.

При копировании сайта HTML-код берется из исходной части контента и добавляется к другому URL-адресу. Если в HTML-код включен тег rel=canonical, он, скорее всего, будет скопирован и на дублированный сайт, таким образом сохранив исходную страницу как каноническую версию. Важно отметить, что это дополнительная защита, которая будет работать только в том случае, если парсеры контента скопируют эту часть HTML-кода.

Домашняя страница Blue Frog содержит тег rel=canonical, указывающий на URL главной страницы.Это сообщает поисковым системам, что этот URL-адрес является исходным, на случай, если парсер контента попытается продублировать страницу для себя.

Дублированный контент часто создается непреднамеренно, но может косвенно повредить вашей SEO-ценности и потенциалу ранжирования, если его оставить без внимания. Находя и управляя дублирующимся контентом на вашем сайте, вы можете гарантировать, что сканеры поисковых систем точно знают, что делать, когда они обнаруживают дублированный контент с вашего сайта. Чем активнее вы будете в начале, тем меньше будет проблем в долгосрочной перспективе.

Избегайте дублирования контента | Центр поиска Google  | Документация  | Разработчики Google

Дублированный контент обычно относится к существенным блокам контента внутри или между доменами.
которые либо полностью соответствуют другому контенту на том же языке, либо заметно похожи.
В основном, это не обманчиво по происхождению. Примеры невредоносного дублированного контента могут
включать:

  • Дискуссионные форумы, которые могут создавать как обычные, так и урезанные страницы, ориентированные на
    мобильные устройства
  • Элементы в интернет-магазине, которые отображаются или на которые ссылаются несколько разных URL-адресов
  • Версии веб-страниц только для печати

Если ваш сайт содержит несколько страниц с практически идентичным содержанием, существует ряд
способов, которыми вы можете указать свой предпочтительный URL-адрес для Google.(Это называется «канонизацией».)
Больше информации о
канонизация.

Однако в некоторых случаях контент намеренно дублируется между доменами в попытке
манипулировать рейтингом в поисковых системах или получить больше трафика. Подобные обманные практики могут
привести к плохому взаимодействию с пользователем, когда посетитель видит практически один и тот же контент
повторяется в наборе результатов поиска.

Google изо всех сил старается индексировать и показывать страницы с четкой информацией.Эта фильтрация означает,
например, если на вашем сайте есть «обычная» и «печатная» версии каждой статьи, и
ни один из них не заблокирован noindex
тег, мы выберем один из них для списка. В тех редких случаях, когда Google считает, что
дублированный контент может быть показан с целью манипулирования нашим рейтингом и обмана наших пользователей,
мы также внесем соответствующие коррективы в индексацию и ранжирование вовлеченных сайтов. Так как
в результате рейтинг сайта может пострадать, или сайт может быть полностью удален из
индекс Google, и в этом случае он больше не будет отображаться в результатах поиска.

Есть несколько шагов, которые вы можете предпринять, чтобы заблаговременно решить проблемы с дублирующимся содержимым и убедиться, что
что посетители увидят контент, который вы хотите.

  • Используйте 301s : Если вы реструктурировали свой сайт, используйте
    301 редиректы («RedirectPermanent»)
    в вашем файле .htaccess, чтобы разумно перенаправлять пользователей, робота Googlebot и других поисковых роботов. (В Апаче
    вы можете сделать это с помощью файла .htaccess; в IIS это можно сделать через административный
    приставка.)
  • Будьте последовательны : Старайтесь, чтобы ваши внутренние ссылки были последовательными. Например,
    не ссылайтесь на http://www.example.com/page/ и http://www.example.com/page и
    http://www.example.com/page/index.htm .
  • Использовать домены верхнего уровня : Чтобы помочь нам обслуживать наиболее подходящую версию
    документ, по возможности используйте домены верхнего уровня для обработки контента, относящегося к конкретной стране. Были
    больше шансов узнать, что http://www.example.de содержит контент, ориентированный на Германию,
    например, чем http://www.example.com/de или http://de.example.com .
  • Распространяйте осторожно : Если вы распространяете свой контент на других сайтах, Google
    всегда будет показывать версию, которую мы считаем наиболее подходящей для пользователей в каждом заданном поиске,
    который может быть или не быть версией, которую вы предпочитаете. Однако полезно убедиться, что каждый
    сайт, на котором синдицирован ваш контент, содержит ссылку на исходную статью.Ты
    также можете попросить тех, кто использует ваш синдицированный материал, использовать noindex
    тег, чтобы поисковые системы не индексировали свою версию контента.
  • Минимизировать шаблонное повторение : Например, вместо включения
    длинный текст об авторских правах внизу каждой страницы, включите очень краткое резюме, а затем
    ссылка на страницу с более подробной информацией. Кроме того, вы можете использовать
    Параметр
    Инструмент обработки, чтобы указать, как вы хотите, чтобы Google обрабатывал параметры URL.
  • Избегайте публикации заглушек : пользователям не нравится видеть «пустые» страницы, поэтому избегайте
    заполнители, где это возможно. Например, не публикуйте страницы, для которых у вас еще нет
    реальный контент. Если вы создаете страницы-заполнители, используйте
    без индекса
    тег, чтобы заблокировать эти страницы от индексации.
  • Понимание вашей системы управления контентом : Убедитесь, что вы знакомы с
    как контент отображается на вашем веб-сайте.Блоги, форумы и связанные с ними системы часто показывают
    один и тот же контент в разных форматах. Например, запись в блоге может появиться на главной странице
    блог, на странице архива и на странице других записей с таким же ярлыком.
  • Свернуть похожий контент : Если у вас много похожих страниц,
    рассмотрите возможность расширения каждой страницы или объединения страниц в одну. Например, если у вас есть
    туристический сайт с отдельными страницами для двух городов, но с одинаковой информацией на обеих страницах,
    вы можете либо объединить страницы в одну страницу об обоих городах, либо расширить каждую
    страница, содержащая уникальный контент о каждом городе.

Google не рекомендует блокировать доступ поисковых роботов к дублирующемуся контенту на вашем веб-сайте,
будь то файл robots.txt или другие методы. Если поисковые системы не могут сканировать страницы с
дублированный контент, они не могут автоматически определить, что эти URL-адреса указывают на один и тот же контент
и поэтому фактически придется рассматривать их как отдельные уникальные страницы. Лучшее решение
заключается в том, чтобы позволить поисковым системам сканировать эти URL-адреса, но помечать их как дубликаты с помощью
rel="canonical" Элемент ссылки , инструмент обработки параметров URL или переадресация 301.В случаях, когда дублированный контент приводит к тому, что мы сканируем слишком большую часть вашего веб-сайта, вы также можете
настроить сканирование
настройка рейтинга в Search Console.

Дублированный контент на сайте не является основанием для действий на этом сайте, если только не окажется, что
цель дублированного контента состоит в том, чтобы ввести в заблуждение и манипулировать результатами поисковой системы.
Если на вашем сайте возникают проблемы с дублированием контента, а вы не следуете перечисленным советам
в этом документе мы хорошо поработали над выбором версии содержимого для отображения в результатах поиска.

Однако, если наша проверка показала, что вы занимаетесь мошенническими действиями и ваш сайт
был удален из наших результатов поиска, внимательно просмотрите свой сайт. Если ваш сайт был
удалены из наших результатов поиска, проверьте наш веб-мастер
Руководство для получения дополнительной информации. После того, как вы внесли изменения и уверены, что
ваш сайт больше не нарушает наши правила, отправьте
ваш сайт на пересмотр.

В редких случаях наш алгоритм может выбрать URL-адрес внешнего сайта, на котором размещен ваш
содержание без вашего разрешения.Если вы считаете, что другой сайт дублирует ваш контент
в нарушение закона об авторском праве вы можете обратиться к хозяину сайта с запросом на удаление. В
Кроме того, вы можете потребовать, чтобы Google удалил страницу, нарушающую авторские права, из наших результатов поиска,
подача запроса
в соответствии с Законом об авторском праве в цифровую эпоху.

SEO: 2 хороших способа удалить повторяющийся контент и 8 плохих

Дублированный контент — это две или более страниц, содержащих одинаковый или очень похожий текст.Дублированный контент разделяет авторитет ссылок и, таким образом, снижает способность страницы ранжироваться в результатах обычного поиска.

Предположим, что на веб-сайте есть две идентичные страницы, каждая из которых имеет 10 внешних входящих ссылок. Этот сайт мог бы использовать силу 20 ссылок для повышения рейтинга одной страницы. Вместо этого на сайте есть две страницы с 10 ссылками. Ни один из них не занял бы столь высокое место.

Дублированный контент также снижает краулинговый бюджет и раздувает индексы поисковых систем.

Сайты электронной торговли создают дублированный контент.Это побочный продукт настроек платформы и технологических решений. Ниже приведены два хороших способа удалить повторяющийся контент из индексов поисковых систем и восемь, которых следует избегать.

Удалить проиндексированный повторяющийся контент

Чтобы исправить проиндексированный дублированный контент, (i) объединить авторитет ссылок на одной странице и (ii) предложить поисковым системам удалить дубликат страницы из своего индекса. Есть два хороших способа сделать это.

  • 301 редиректы — лучший вариант.301 редиректы консолидируют авторитет ссылок, вызывают деиндексацию, а также перенаправляют пользователя на новую страницу. Google заявил, что присваивает 100 процентов авторитета ссылок новой странице с переадресацией 301. Но Bing и другие поисковые системы молчат. В любом случае, используйте переадресацию 301 только в том случае, если страница была окончательно удалена.
  • Канонические теги. «Канонический» — это причудливое слово для чего-то, что признано единой истиной. В поисковой оптимизации канонические теги определяют, какая страница должна быть проиндексирована, и присваивают авторитет ссылки.Теги — это предложения для поисковых систем, а не команды вроде 301 редиректа. Поисковые системы обычно уважают канонические теги для действительно дублированного контента.

Канонические теги являются следующим лучшим вариантом, когда (i) переадресация 301 нецелесообразна или (ii) дубликат страницы должен оставаться доступным — например, если у вас есть две страницы сетки продуктов, одна отсортирована по возрастанию, а другие от низкого к высокому, вы не хотели бы перенаправлять одно на другое.

8 способов избежать

По моему опыту, некоторые параметры, которые удаляют — или утверждают, что удаляют — дублированный контент из поисковых индексов, не рекомендуются.

  • 302 перенаправляет сигнал о временном перемещении, а не постоянном. Google годами заявлял, что 302 редиректа проходят 100% авторитета ссылки. Однако 302 не вызывают деиндексацию. Поскольку для их реализации требуется столько же усилий, сколько и для 301, перенаправления 302 следует использовать только в том случае, если перенаправление действительно временное и когда-нибудь будет удалено.
  • Перенаправления JavaScript рассматриваются Google как действительные — по прошествии нескольких дней или недель до завершения рендеринга.Но нет особых причин использовать переадресацию JavaScript, если у вас нет доступа к серверу для 301-й.
  • Мета-обновления видны покупателям в виде короткого мигания или многосекундной загрузки страницы на их экране, прежде чем браузер загрузит новую страницу. Это плохой выбор из-за неприятного пользовательского опыта и времени рендеринга, необходимого Google для обработки их как перенаправления.
  • 404 ошибки показывают, что запрошенный файл отсутствует на сервере, что побуждает поисковые системы деиндексировать эту страницу.Но ошибки 404 также удаляют связанный со страницей авторитет ссылок. Попробуйте перенаправить 301 удаленную страницу, когда сможете.
  • Мягкие ошибки 404 возникают, когда сервер 302 перенаправляет неверный URL-адрес на то, что выглядит как страница с ошибкой, которая затем возвращает ответ заголовка сервера 200 OK. Например, скажем, example.com/page/ был удален и должен возвращать ошибку 404. Вместо этого он 302 перенаправляет на страницу, которая выглядит как страница с ошибкой (например, www.example.com/error-page/), но возвращает ответ 200 OK.

Ответ 302 непреднамеренно сообщает поисковым системам, что www.example.com/page/ исчез, но может вернуться, поэтому страница должна оставаться в индексе. Более того, ответ 200 сообщает поисковым системам, что www.example.com/error-page/ является действительной страницей для индексации. Таким образом, программные ошибки 404 еще больше раздувают индекс, в результате чего индексируется не один неверный URL-адрес, а два.

  • Инструменты поисковой системы. Google и Bing предоставляют инструменты для удаления URL.Однако, поскольку оба требуют, чтобы отправленный URL-адрес возвращал действительную ошибку 404, инструменты являются резервным шагом после удаления страницы с вашего сервера.
  • Meta robots noindex тег  находится в заголовке HTML-файла. Атрибут noindex указывает ботам не индексировать страницу. При применении после того, как страница была проиндексирована, это может в конечном итоге привести к деиндексации, но это может занять месяцы. К сожалению, авторитет ссылок умирает вместе со способностью движков индексировать страницу.И поскольку поисковые системы должны продолжать сканировать страницу, чтобы убедиться, что атрибут noindex все еще на месте, эта опция не уменьшает мертвые страницы из индекса. (Кстати, обратите внимание, что атрибут nofollow метатега robots не влияет на индексацию этой страницы.)
  • Robots.txt disallow  не вызывает деиндексацию. Страницы, запрещенные после того, как они были проиндексированы, больше не сканируются ботами поисковых систем, но они могут оставаться или не оставаться в индексе.Однако маловероятно, что эти страницы будут отображаться в результатах поиска, если их не искать по URL-адресу, потому что поисковые системы больше не будут сканировать страницу.

Хотя мета-роботы noindex и robots.txt disallow не идеальны для удаления проиндексированного контента, оба они должны предотвращать индексацию нового дублированного контента. Их применение, однако, требует выявления дублирующегося контента до запуска нового сайта, и они не эффективны на 100%.

Ваш лучший выбор

Если вам нужен надежный метод деиндексации, лучшим выбором будет перенаправление 301 или ошибка 404, потому что сервер больше не загружает контент, который был найден на этой странице. Если вам нужно деиндексировать страницу и , используйте авторитет ссылки, используйте переадресацию 301.

7 способов избавиться от него

Часто в дискуссионных сообществах по SEO вы сталкиваетесь с вопросами от веб-мастеров: «Если я сделаю XYZ, вызовет ли это штраф за дублирование контента?» Распространенное заблуждение с тех пор, как Google выпустил обновление Panda, заключается в том, что штраф за дублирование контента существует и вы рискуете, что ваш сайт будет удален из индекса Google, если у вас будет одинаковый контент на разных страницах вашего сайта.В какой-то момент во время создания контента вашего веб-сайта вы могли подумать о дублирующемся контенте; использование одних и тех же изображений несколько раз на сайте или, если это сайт электронной коммерции, беспокойство о страницах категорий, появляющихся более чем в одном URL-адресе с одним и тем же продуктом и описанием, или о том, что ваши статьи дословно синдицируются на других места. Итак, сколько и о чем вам действительно нужно беспокоиться с точки зрения дублированного контента? Начнем с основ.

Если вы не будете осторожны, вы можете непреднамеренно публиковать дублированный контент несколькими способами:

Хорошей новостью является то, что есть некоторые методы на странице, которые вы можете использовать, чтобы избавиться от дублированного контента на вашем сайте.Они известны как rel=»canonical», hreflang и rel=»prev»/rel=»next» (разбиение на страницы).

Что такое дублированный контент?

Любой контент, идентичный другому контенту, существующему на том же или другом веб-сайте.

Примеры:

  • Содержание вашего блога синдицировано (скопировано) на другой веб-сайт.
  • Если ваша домашняя страница имеет несколько URL-адресов с одним и тем же контентом, например: http://yoursite.com , http://www.yoursite.com и http://www.yoursite.com/index.htm .
  • Страницы, дублированные из-за идентификаторов сеансов и параметров URL, таких как http://yoursite.com/product и http://yoursite.com/product?sessionid=5486481 .
  • Страницы с параметрами сортировки по времени, дате, цвету или другим критериям сортировки могут создавать дубликаты страниц, например http://yoursite.com/category и http://yoursite.com/category?= сортировка=средняя .
  • Страницы с кодами отслеживания и партнерскими кодами, например http://yoursite.com/product и http://yoursite.com/product?ref=name .
  • Подходящие для печати страницы, созданные вашей CMS, имеют то же содержание, что и ваши веб-страницы.
  • Страницы с http до входа и https после.

Что не является дублирующимся контентом?

Примеры:

  • Цитаты с других сайтов при умеренном использовании на вашей странице внутри кавычек.Желательно, чтобы они были связаны со ссылкой на источник.
  • Изображения с других сайтов или изображения, повторенные на вашем сайте. (Это не считается дублирующимся контентом, поскольку поисковые системы не могут сканировать изображения).
  • Инфографика, опубликованная с помощью встроенных кодов.

Нет такой вещи, как штраф за дублирование контента. У вас есть доказательства прямо из уст Google здесь и здесь. Но это не означает легкомысленного отношения к проблеме дублированного контента. Последствия дублирования контента на ваших веб-страницах — потеря трафика просто потому, что вы «исключены из результатов поиска».Правильно, вас не деиндексируют и не наказывают, но дублированный контент просто не показывается пользователям в результатах поиска. В Google вы можете найти сообщение, похожее на показанное ниже:

.

Если пользователь щелкнет ссылку, чтобы повторить поиск, он наткнется на эти отсутствующие страницы с дублирующимся содержимым. Однако вероятность того, что пользователь на самом деле щелкнет эту ссылку, в основном равна нулю, поскольку сообщение отображается на последней странице поиска — да, на странице 8042 или на любом другом количестве страниц, которые может вернуть поиск.Кроме того, если у вас есть одна версия контента, зачем вам повторяться? Это один из способов, которым Google совершенствует пользовательский опыт своей поисковой системы, и это правильно. Итак, как это повлияло на ваш сайт? То, как Google обрабатывает дублированный контент, может повлиять на ваш сайт по-разному:

  • Потерять исходный контент из-за пропущенных результатов : Если ваш оригинальный блог был синдицирован на множество сторонних веб-сайтов без обратной ссылки на ваш контент, есть большая вероятность, что ваш исходный контент будет опущен и заменен их контентом. .Это особенно верно, если сторонний сайт имеет более высокий PageRank, большее влияние и/или более качественные обратные ссылки, чем ваш сайт.
  • Пустая трата времени на индексирование для ботов : При индексировании вашего сайта боты поисковых систем рассматривают каждую ссылку как уникальную и индексируют содержимое каждой из них. Если у вас есть дубликаты ссылок из-за идентификаторов сеансов или по любой из упомянутых выше причин, боты тратят свое время на индексирование повторяющегося контента, а не на индексирование другого уникального контента на вашем сайте.
  • Множественные дубликаты ссылок означают разбавленную ссылочную массу : Если вы создаете ссылки, указывающие на страницу с несколькими URL-адресами, проходящая ссылочная масса распределяется между ними.Если все страницы объединены в одну, ссылочный вес также будет объединен, что может повысить рейтинг веб-страницы в поиске. Для получения дополнительной информации см. SEO-руководство по потоку ссылок.
  • Потеря трафика : Очевидно, что если ваш контент не соответствует версии, выбранной Google для отображения в результатах поиска, вы потеряете ценный трафик на свой сайт.

Как обнаружить дублированный контент на вашем сайте?

Самый простой и логичный способ — скопировать и вставить фрагмент вашего контента в поиск Google и посмотреть, не появится ли какая-либо другая страница с точно таким же контентом.Есть и другие способы, а именно:

1. Консоль поиска Google:

Дублированный контент не ограничивается контентом, представленным на веб-странице, но также может быть контентом, видимым во фрагментах поиска, таких как мета-заголовки и мета-описания. Дублирование такого контента можно легко обнаружить с помощью консоли поиска Google в разделе «Оптимизация» > «Улучшения HTML», как показано на снимке экрана выше.

2. Внешние инструменты:

Copyscape.com — отличный инструмент для проверки дублированного контента на вашем сайте.Это бесплатный инструмент, доступный как для Mac, так и для ПК.

3. «Сайт:» Оператор поиска:

Введите свой сайт в поиск с помощью оператора site:search вместе с частью контента со страницы следующим образом:

сайт:www.yoursite.com [часть контента, скопированная с вашего сайта здесь]

Если вы видите сообщение от Google о пропущенных результатах (как показано на первом снимке экрана в этом блоге), это указывает на то, что ваш сайт содержит дублированный контент, присутствующий на веб-сайте или за его пределами.

Итак, последний вопрос…

Как избавиться от дублированного контента? Вот 8 способов:

Удаление повторяющегося контента с вашего сайта возможно, и стоит потратить время и усилия, чтобы сделать ваш сайт как можно более удобным для поисковых систем. Удаление дублированного контента с других сайтов, распространяющих ваш исходный контент, должно осуществляться так, как вы предпочитаете; либо отправив им вежливое электронное письмо, либо упомянув в своих комментариях в блоге ссылку на ваш оригинальный контент.

Ниже приведены способы борьбы с дублирующимся контентом, созданным на вашем собственном сайте:

1. Отн = «канонический»:

Если вы используете систему управления контентом, синдицируете контент или имеете сайт электронной коммерции, легко получить несколько URL-адресов или доменов, указывающих на один и тот же контент. Чтобы бороться с этим, сообщите поисковым системам, где они могут найти оригинал, используя тег rel=»canonical». Когда поисковая система видит эту аннотацию, она знает, что текущая страница является копией и где найти канонический контент.

Как мне это сделать?

Начните с решения, какой URL вы хотите сделать каноническим. Как правило, вы должны выбрать лучший оптимизированный URL-адрес в качестве своего канонического URL-адреса.

Чтобы правильно указать поисковой системе, что контент скопирован с вашего канонического URL-адреса, поместите аннотацию rel=»canonical» в вашей страницы. Должно получиться так:

Если у вас есть не-HTML-версия документа (например, PDF-файл, доступный для загрузки), вы можете включить каноническую ссылку в заголовок HTTP следующим образом: Ссылка: ">; rel="canonical"

Что может пойти не так?

Несмотря на то, что тег rel=»canonical» кажется достаточно простым для реализации, неправильное его использование может серьезно повлиять на эффективность поиска. Есть несколько распространенных ошибок при канонизации, которых вам следует избегать:

  • Содержимое с разбивкой на страницы, все указывающие на первую страницу: когда вы добавляете каноническую аннотацию к содержимому с разбивкой на страницы, сопоставьте URL-адрес вашей страницы 1 с каноническим URL-адресом страницы 1, страницу 2 со страницей 2 и т. д.Мы рассмотрим это чуть подробнее позже.

  • Канонические URL-адреса, не являющиеся на 100 % точными совпадениями: если на вашем сайте используются относительные ссылки протокола, отсутствие http/https приведет к тому, что поисковые системы будут видеть дублирующийся контент по этим двум адресам. Всегда делайте ваши предпочтительные URL-адреса точными совпадениями на 100%.

  • Указание на канонические URL-адреса, которые возвращают ошибку 404: поисковые системы будут игнорировать теги, указывающие на мертвую страницу.

Несколько канонических тегов: поисковые системы поддерживают только одну аннотацию rel=»canonical» на страницу.Вы можете получить несколько, когда веб-мастер копирует шаблон страницы, который уже включает rel=»canonical» или плагин автоматически вставляет rel=»canonical». В случае нескольких канонических тегов Google просто проигнорирует их все.

2. Рефланг

Представленный Google в 2011 году тег hreflang позволяет сообщить поисковой системе, что страница связана с другими страницами на других языках и/или в других регионах. Если ваш веб-сайт https://example.com, и у вас есть такая же страница на испанском языке на [https://example.com/es[https://example.com/], используйте тег hreflang, чтобы указать поисковым системам показывать эту страницу испаноязычным пользователям.

Важно отметить, что hreflang является фактором, а не директивой в результатах поиска. Поэтому, если у вас есть слишком похожие страницы (например, страницы на английском языке, ориентированные на США и Канаду), вы рискуете получить неверный рейтинг версии для поискового запроса. Многоязычные сайты должны быть частью вашей общей маркетинговой стратегии.

Как мне это сделать?

Аннотация hreflang реализована в разделе

HTML-страницы.Для страниц, отличных от HTML, тег можно поместить в заголовок HTTP. Если все сделано правильно, тег hreflang должен выглядеть так:

Вы должны включить ссылки на каждую версию вашей страницы. Если у вас есть копии на английском, испанском и французском языках, поместите ссылки на все три на странице

.

Если у вас есть две или более страниц на одном языке, но ориентированных на разные регионы (например, США, Канаду и Великобританию), вы можете расширить переменную hreflang, включив в нее код страны, например:

Если у вас есть не-HTML-страница на нескольких языках, разделите каждую аннотацию hreflang запятыми следующим образом:

ссылка: <>; отн = "альтернативный"; hreflang="en-us",

ссылка: <ca/>; отн = "альтернативный"; hreflang="en-ca",

ссылка: <uk/>; отн = "альтернативный"; hreflang="en-gb",

Существует также третий вариант реализации тегов hreflang: ваша XML-карта сайта. Вместо того, чтобы добавлять разметку на свои страницы, включите версии своих URL-адресов на иностранных языках в свою карту сайта. Как и в случае с другими аннотациями, включите URL-адрес для каждого языка.

Что может пойти не так?

Распространенной проблемой при вставке аннотаций hreflang является «Ошибки возврата тега.»Эти ошибки происходят из-за аннотаций hreflang, которые не связаны друг с другом. Аннотации — это улица с двусторонним движением; если ваша англоязычная страница ссылается на вашу немецкую страницу, ваша немецкая страница должна ссылаться на вашу англоязычную страницу. Ошибка тега пропускает ссылку на себя — ваша англоязычная страница должна ссылаться на себя.

Чтобы проверить наличие ошибок тега возврата, просмотрите данные международного таргетинга консоли поиска Google в разделе «Поисковый трафик». Это скажет вам, сколько тегов hreflang нашел Google и сколько из них содержат ошибки.

Еще одна распространенная проблема с аннотациями hreflang — неверный код языка или страны. Значение hreflang должно быть в формате ISO 639-1 для языка и в формате ISO 3166-1 Alpha 2 для страны. Использование «uk» для Соединенного Королевства является наиболее распространенным виновником; в этой системе значение должно быть «gb» для Великобритании. Обратите внимание, что значение hreflang должно начинаться с кода языка, а таргетинг на регион ограничен странами — например, вы не можете настроить таргетинг на Европейский Союз или Северную Америку.

3. 301 переадресация:

Вы можете использовать переадресацию 301 на повторяющихся страницах, которые создаются автоматически и не являются обязательными для просмотра пользователем. Добавление тегов rel=»canonical» к повторяющимся страницам делает страницу видимой для пользователей, в то время как 301 редиректы направляют как роботов поисковых систем, так и пользователей только на предпочитаемую страницу. Это должно быть сделано специально для URL-адресов домашней страницы с URL-адреса WWW на URL-адрес, не относящийся к WWW, или наоборот, в зависимости от того, какой URL-адрес используется чаще всего. Точно так же, если у вас есть дублированный контент на нескольких веб-сайтах с разными доменными именами, вы можете перенаправить страницы на один URL-адрес, используя переадресацию 301. ПРИМЕЧАНИЕ. Перенаправления 301 являются постоянными, поэтому будьте осторожны при выборе предпочтительного URL-адреса.

4. Тег мета-роботов

Вы можете использовать метатег robots с атрибутами nofollow и noindex, если вам нужно предотвратить индексацию повторяющейся страницы поисковой системой. Просто добавьте следующий код на дубликат страницы:

.

  <метаимя=”роботы” содержание=”ноиндекс”>
  

Есть еще один способ исключить дубликаты страниц из индексов поисковых систем — запретить ссылки со спецсимволами в файле robots.текстовый файл. Примечание. Google рекомендует не блокировать страницы из-за дублирующегося контента с помощью robots.txt, потому что, если URL-адрес полностью заблокирован, есть вероятность, что боты поисковых систем могут найти URL-адреса за пределами веб-сайта по ссылкам и могут рассматривать их как уникальные страницы. Это означает, что поисковые системы, вероятно, выберут эту страницу как предпочтительную среди всех дубликатов, даже если это не было вашим намерением.

5. Консоль поиска Google:

Вы можете настроить параметры URL так, чтобы дубликаты страниц не индексировались роботом Google.Этот параметр также доступен в разделе «Конфигурация» в подразделе «Параметры URL», однако использование этого параметра может привести к деиндексации важных страниц, если они не настроены должным образом, поэтому не рекомендуется, если вы не совсем уверены, как это сделать. Узнайте больше о параметрах URL в нашем блоге Чистые URL для SEO и удобства использования.

6. Отслеживание хэштегов:

Вместо использования параметров отслеживания в URL-адресах (что создает дубликаты страниц с одинаковым содержанием) попробуйте использовать метод отслеживания хэш-тегов.Параметры отслеживания используются для отслеживания посещений вашего сайта с определенных сайтов, например, с сайта аффилейт-маркетолога. Эти параметры обычно присутствуют после вопросительного знака (?) в URL-адресе. С помощью метода хэш-тега мы удаляем вопросительный знак и используем хэш-тег (#). Почему? Что ж, боты Google, как правило, игнорируют все, что находится после хэш-тега. Так, например, у вас могут быть повторяющиеся URL-адреса, такие как http://yoursite.com/product/ и http://yoursite.com/product/#utm_source=xyz .Когда вы используете хэштег, Google видит обе ссылки как http://yoursite.com/product/ . Для этого используйте метод _setAllowAnchor, как показано здесь.

7. Контент на доменах верхнего уровня для конкретных стран:

Когда у вас есть предприятия, разбросанные по всему миру, естественно иметь несколько доменов для каждого местоположения, и, вероятно, невозможно создать уникальный контент для каждого из этих сайтов, если продукт/услуга одинаковы. Как вы справляетесь с дублированием контента в доменах вашей страны? Для начала перейдите в Google Search Console> Конфигурация> Настройки в каждом из доменов для конкретной страны и выберите страну целевой аудитории для каждого сайта.

  • Если возможно, используйте локальный сервер для каждого домена конкретной страны.
  • Введите местные адреса и номера телефонов на каждом сайте для конкретной страны.
  • Используйте геометатеги. Эти теги могут не использоваться Google, поскольку вы уже установили параметр целевых пользователей в Google Search Console, но они могут пригодиться, чтобы вторичные поисковые системы, такие как Bing, знали, что ваш сайт ориентирован на определенную страну.
  • Используйте rel=“alternate” hreflang=“x” , чтобы роботы Google знали больше о ваших зарубежных страницах с таким же содержанием и чтобы показать, какая страница должна быть возвращена для какой аудитории в результатах поиска.

Некоторые SEO-специалисты могут предложить использовать rel=»canonical » для устранения дубликатов между доменами, но пока неясно, является ли использование этого для перенаправления многодоменных страниц правильным решением, поскольку это необходимо для сайтов с географическим таргетингом. отображаться в результатах поиска для соответствующих поисковых запросов по конкретной стране.На данный момент мы рекомендуем уточнить, что ваш контент имеет геотаргетинг, чтобы поисковые системы знали, какой контент показывать какой аудитории, избегая путаницы.

8. Постраничный контент:

Если у вас есть контент со связанными компонентами, распределенными между несколькими страницами, и вы хотите направлять пользователей на определенные страницы через результаты поиска, используйте rel=»next» и rel=»prev», чтобы поисковые системы знали, что эти страницы являются частью последовательности. . Узнайте больше о реализации этих атрибутов rel в блоге Google Webmaster Central о нумерации страниц с помощью rel=»next» и rel=»prev».Когда дело доходит до комментариев в блогах, существует еще один вид нумерации страниц. Отключите пагинацию комментариев в вашей CMS, иначе (на большинстве сайтов) будут созданы разные URL-адреса одного и того же контента.

Примечание: После того, как вы использовали эти стратегии для избавления от дублированного контента, не забудьте обновить XML-карту сайта, удалив повторяющиеся URL-адреса и оставив только канонические URL-адреса, а затем повторно отправьте файл Sitemap в Google Search Console. Прочтите наше руководство по файлам Sitemap в формате XML для получения дополнительной информации.

Есть также несколько вещей, которые вы можете сделать, чтобы регулярно бороться с дублированием контента на вашем сайте.Например, улучшите внутренние ссылки и ссылки на предпочитаемые домены. По мере того, как обнаруживается больше ссылок, указывающих на предпочтительные URL-адреса, поисковым системам становится легче определить, какая страница является предпочтительной. Кроме того, на сайтах электронной коммерции, когда у вас есть продукты, которые классифицируются по цветам, размерам или чему-то еще, каждый раз, когда пользователь щелкает размер или цвет, URL-адрес изменяется из-за параметра сортировки, и это создает дублированный контент. В таких случаях предоставьте возможность выбора критериев выбора на той же странице, чтобы URL-адрес не менялся.

Сообщите нам в комментариях, если у вас есть какие-либо вопросы о дублирующемся контенте на вашем сайте или если у вас есть какие-либо предложения по устранению дублирующегося контента, которые не были упомянуты в этом блоге.

причин и решений • Yoast

У поисковых систем, таких как Google, есть проблема — это называется «дублированный контент». Дублированный контент означает, что похожий контент появляется в нескольких местах (URL) в Интернете, и в результате поисковые системы не знают, какой URL показывать в результатах поиска.Это может повредить рейтингу веб-страницы, и проблема только усугубляется, когда люди начинают ссылаться на разные версии одного и того же контента. Эта статья поможет вам понять различные причины дублирования контента и найти решение для каждой из них.

Что такое дублированный контент?

Дублированное содержимое — это содержимое, доступное по нескольким URL-адресам в Интернете. Поскольку один и тот же контент отображается на нескольких URL-адресах, поисковые системы не знают, какой URL-адрес размещать выше в результатах поиска.Поэтому они могут ранжировать оба URL ниже и отдавать предпочтение другим веб-страницам.

В этой статье мы в основном сосредоточимся на технических причинах дублирования контента и их решениях. Если вы хотите получить более широкое представление о дублированном контенте и узнать, как он связан с скопированным или очищенным контентом или даже с каннибализацией ключевых слов, мы советуем вам прочитать этот пост: Что такое дублированный контент.

Проиллюстрируем это на примере

Повторяющийся контент можно сравнить с перекрёстком, где дорожные знаки указывают в двух разных направлениях на один и тот же пункт назначения: по какой дороге выбрать? Что еще хуже, конечный пункт назначения тоже отличается, но совсем немного.Как читатель, вы можете не возражать, если получите ответ, за которым пришли, но поисковая система должна выбрать, какую страницу показывать в результатах поиска, потому что, конечно, она не хочет показывать один и тот же контент дважды.

Допустим, ваша статья о ‘keyword x’  отображается по адресу http://www.example.com/keyword-x/, а тот же контент также появляется по адресу http://www.example.com/article- категория/ключевое слово-x/ . Эта ситуация не выдумка: она происходит во многих современных системах управления контентом (CMS).Предположим, что вашу статью подхватили несколько блоггеров, и некоторые из них ссылаются на первый URL, а другие ссылаются на второй. Это когда проблема поисковой системы показывает свою истинную природу: это ваша проблема. Дублированный контент — это ваша проблема, потому что обе эти ссылки продвигают разные URL-адреса. Если бы все они ссылались на один и тот же URL, ваши шансы на ранжирование по ключевому слову x были бы выше.

Если вы не знаете, страдает ли ваш сайт от проблем с дублированием контента, эти инструменты обнаружения дубликатов помогут вам это выяснить!

Зачем предотвращать дублирование контента на вашем сайте?

Дублированный контент повредит вашему рейтингу.По крайней мере, поисковые системы не будут знать, какую страницу предлагать пользователям. И в результате все страницы, которые поисковые системы считают дубликатами, рискуют оказаться в более низком рейтинге. Это в лучшем случае. Если ваши проблемы с дублирующимся контентом действительно серьезные, например, если у вас очень тонкий контент в сочетании с дословно скопированным контентом, вы можете даже столкнуться с ручным действием со стороны Google за попытку обмануть пользователей. Поэтому, если вы хотите, чтобы ваш контент ранжировался, очень важно убедиться, что каждая страница предлагает приличное количество уникального контента.

Однако это проблема не только поисковых систем. Если ваши пользователи ищут определенную страницу, их может очень расстроить, если они не смогут найти то, что ищут. Таким образом, как и во многих аспектах SEO, важно позаботиться о проблемах с дублированным контентом для удобства пользователей, а также для поиска.

Причины дублирования контента

Существуют десятки причин дублирования контента. Большинство из них носят технический характер: не так уж часто человек решает поместить один и тот же контент в два разных места, не уточняя, какое из них является оригиналом.Если вы, конечно, не клонировали пост и не опубликовали его случайно. Но в остальном большинству из нас это кажется неестественным.

Есть много технических причин, и в основном это происходит из-за того, что разработчики думают не как браузер или даже пользователь, не говоря уже о пауке поисковой системы — они думают как программист. Возьмем ту статью, о которой мы упоминали ранее, которая появляется на http://www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/ . Если вы спросите разработчика, они скажут, что он существует только один раз.

Неправильное понимание концепции URL

Нет, этот разработчик не сошел с ума, он просто говорит на другом языке. CMS, вероятно, будет управлять веб-сайтом, и в этой базе данных есть только одна статья, но программное обеспечение веб-сайта просто позволяет получить эту же статью в базе данных через несколько URL-адресов. Это потому, что в глазах разработчика уникальным идентификатором этой статьи является идентификатор этой статьи в базе данных, а не URL-адрес. Но для поисковой системы URL — это уникальный идентификатор части контента.Если вы объясните это разработчику, они начнут понимать проблему. И после прочтения этой статьи вы даже сможете сразу предложить им решение.

Идентификаторы сеанса

Вы часто хотите отслеживать своих посетителей и разрешать им, например, хранить товары, которые они хотят купить, в корзине для покупок. Для этого вы должны дать им «сессию». Сеанс — это краткая история того, что посетитель делал на вашем сайте, и может содержать такие вещи, как товары в их корзине.Чтобы поддерживать этот сеанс, когда посетитель переходит с одной страницы на другую, уникальный идентификатор этого сеанса, называемый идентификатором сеанса, должен где-то храниться. Наиболее распространенным решением является использование файлов cookie. Однако поисковые системы обычно не хранят файлы cookie.

В этот момент некоторые системы возвращаются к использованию идентификаторов сеанса в URL-адресе. Это означает, что каждая внутренняя ссылка на веб-сайте получает этот идентификатор сеанса, добавляемый к ее URL-адресу, и, поскольку этот идентификатор сеанса уникален для этого сеанса, он создает новый URL-адрес и, следовательно, дублирует контент.

Параметры URL, используемые для отслеживания и сортировки

Еще одна причина дублирования содержимого — использование параметров URL, которые не изменяют содержимое страницы, например, в ссылках отслеживания. Видите ли, для поисковой системы http://www.example.com/keyword-x/ и http://www.example.com/keyword-x/?source=rss не являются одним и тем же URL-адресом. . Последнее может позволить вам отслеживать, из какого источника пришли люди, но также может затруднить вам ранжирование — очень нежелательный побочный эффект!

Конечно, это относится не только к параметрам отслеживания.Это относится к каждому параметру, который вы можете добавить к URL-адресу, который не изменяет жизненно важную часть контента, независимо от того, предназначен ли этот параметр для «изменения сортировки набора продуктов» или для «показа другой боковой панели»: все они вызывают дублирование содержание.

Парсеры и синдикация контента

Большинство причин дублирования контента — это «вина» вас или вашего веб-сайта. Однако иногда другие веб-сайты используют ваш контент с вашего согласия или без него. Они не всегда ссылаются на вашу исходную статью, поэтому поисковая система не «понимает» ее и вынуждена иметь дело с еще одной версией той же статьи.Чем популярнее становится ваш сайт, тем больше парсеров вы получаете, что делает эту проблему все больше и больше.

Порядок параметров

Другая распространенная причина заключается в том, что CMS не использует красивые чистые URL-адреса, а использует такие URL-адреса, как /?id=1&cat=2 , где ID относится к статье, а cat относится к категории. URL-адрес /?cat=2&id=1 будет отображать одни и те же результаты в большинстве систем веб-сайтов, но они совершенно разные для поисковой системы.

В моем любимом WordPress, а также в некоторых других системах есть возможность разбить ваши комментарии на страницы.Это приводит к тому, что содержимое дублируется по URL-адресу статьи и URL-адресу статьи + /comment-page-1/, /comment-page-2/ и т. д.

Страницы для печати

Если ваша система управления контентом создает страницы для печати и вы ссылаетесь на них со страниц своих статей, Google обычно находит их, если только вы не заблокируете их специально. Теперь спросите себя: какую версию вы хотите, чтобы Google показывал? С вашей рекламой и периферийным контентом или только с вашей статьей?

WWW vs.не-WWW

Это один из старейших в книге, но иногда поисковые системы все еще ошибаются: WWW и не-WWW дублированный контент, когда доступны обе версии вашего сайта. Другая, менее распространенная ситуация, которую я тоже видел, — это дублированный контент HTTP и HTTPS, когда один и тот же контент обслуживается по обоим.

Концептуальное решение: «канонический» URL

Ироническое примечание

Канонический – это термин, восходящий к римско-католической традиции, где был создан список священных книг, принятый как подлинный.Они были известны как канонические Евангелия Нового Завета. Ирония в том, что Римско-католической церкви потребовалось около 300 лет и многочисленные сражения, чтобы составить этот канонический список, и в итоге они выбрали четыре версии одной и той же истории

.

Как мы уже видели, тот факт, что несколько URL-адресов ведут к одному и тому же контенту, является проблемой, но ее можно решить. Один человек, который работает в издании, обычно может довольно легко сказать вам, каким должен быть «правильный» URL для определенной статьи, но иногда, когда вы спрашиваете трех человек в одной компании, вы получите три разных ответа…

Это проблема, которую необходимо решить, потому что, в конце концов, может быть только один (URL).Этот «правильный» URL для части контента называется каноническим URL поисковыми системами.

Выявление проблем с повторяющимся содержимым

Возможно, вы не знаете, есть ли у вас проблема с дублированием контента на вашем сайте или с вашим контентом. Использование Google — один из самых простых способов обнаружить дублированный контент.

Есть несколько операторов поиска, которые очень полезны в подобных случаях. Если вы хотите найти на своем сайте все URL-адреса, которые содержат ваше ключевое слово X  статья, введите в Google следующую поисковую фразу:

.

 сайт: пример.com intitle:"Ключевое слово X"
 

Затем Google покажет вам все страницы на сайте example.com, содержащие это ключевое слово. Чем конкретнее вы сделаете intitle частью запроса, тем легче будет отсеять дублированный контент. Вы можете использовать тот же метод для выявления дублирующегося контента в Интернете. Допустим, полное название вашей статьи было «Ключевое слово X — почему это круто» , вы бы искали:

 intitle:"Ключевое слово X — почему оно прекрасно"
 

И Google выдаст вам все сайты, соответствующие этому названию.Иногда стоит даже поискать одно или два полных предложения из вашей статьи, так как некоторые парсеры могут изменить заголовок. В некоторых случаях, когда вы выполняете такой поиск, Google может отображать уведомление на последней странице результатов:

.

Это признак того, что Google уже «дедублирует» результаты. Это все еще не очень хорошо, поэтому стоит перейти по ссылке и посмотреть все остальные результаты, чтобы увидеть, можно ли исправить некоторые из них.

Подробнее: Сделай сам: проверка дубликатов »

Практические решения для дублирования контента

После того, как вы решили, какой URL-адрес является каноническим URL-адресом для вашего фрагмента контента, вы должны начать процесс канонизации (да, я знаю, попробуйте быстро произнести это три раза вслух).Это означает, что мы должны сообщить поисковым системам о канонической версии страницы и позволить им найти ее как можно скорее. Есть четыре способа решения проблемы, в порядке предпочтения:

  1. Не создавать дублированный контент
  2. Перенаправление дублированного контента на канонический URL-адрес
  3. Добавление элемента канонической ссылки на дубликат страницы
  4. Добавление HTML-ссылки с дубликата страницы на каноническую страницу

Предотвращение дублирования контента

Некоторые из перечисленных выше причин дублирования контента имеют очень простые исправления:

  • Содержится ли идентификатор сеанса в ваших URL-адресах?
    Часто их можно просто отключить в настройках вашей системы.
  • У вас есть дубликаты страниц для печати?
    Это совершенно не нужно: вы должны просто использовать таблицу стилей для печати.
  • Используете ли вы пагинацию комментариев в WordPress?
    Вам следует просто отключить эту функцию (в настройках » обсуждение ) на 99% сайтов.
  • Ваши параметры в другом порядке?
    Попросите вашего программиста создать сценарий, чтобы параметры всегда располагались в одном и том же порядке (это часто называют фабрикой URL).
  • Есть ли проблемы со ссылками отслеживания?
    В большинстве случаев вы можете использовать отслеживание кампаний на основе хэштегов вместо отслеживания кампаний на основе параметров.
  • Есть ли у вас проблемы с WWW и не WWW?
    Выберите один и придерживайтесь его, перенаправляя одно на другое. Вы также можете установить предпочтение в Инструментах Google для веб-мастеров, но вам нужно будет заявить права на обе версии доменного имени.

Если вашу проблему не так просто решить, возможно, стоит приложить усилия.Цель должна заключаться в том, чтобы полностью предотвратить появление дублированного контента, потому что это, безусловно, лучшее решение проблемы.

301 Перенаправление дублированного контента

В некоторых случаях невозможно полностью запретить системе, которую вы используете, создавать неправильные URL-адреса для содержимого, но иногда их можно перенаправить. Если для вас это нелогично (что я могу понять), имейте это в виду, разговаривая со своими разработчиками. Если вы  сделаете  избавитесь от некоторых проблем с повторяющимся контентом, убедитесь, что вы перенаправляете все старые URL-адреса дублированного контента на правильные канонические URL-адреса.

Использование ссылок

Иногда вы не хотите или не можете избавиться от повторяющейся версии статьи, даже если знаете, что это неправильный URL-адрес. Чтобы решить эту конкретную проблему, поисковые системы ввели элемент канонической ссылки. Он размещен в разделе вашего сайта и выглядит так:

.

    

В разделе href канонической ссылки вы указываете правильный канонический URL-адрес своей статьи.Когда поисковая система, поддерживающая каноническую, находит этот элемент ссылки, она выполняет мягкую переадресацию 301, передавая большую часть значения ссылки, собранной этой страницей, на вашу каноническую страницу.

Однако этот процесс немного медленнее, чем перенаправление 301, поэтому, если вы можете просто выполнить перенаправление 301, это было бы предпочтительнее, как упоминал Джон Мюллер из Google.

Продолжайте читать: rel=canonical • Что это такое и как (не) его использовать »

Ссылка на исходный контент

Если вы не можете сделать что-либо из вышеперечисленного, возможно, из-за того, что вы не контролируете раздел сайта, на котором появляется ваш контент, добавление обратной ссылки на исходную статью вверху или внизу статьи всегда является хорошая идея.Вы можете сделать это в своем RSS-канале, добавив в него ссылку на статью. Некоторые парсеры будут отфильтровывать эту ссылку, но другие могут оставить ее. Если Google обнаружит несколько ссылок, указывающих на вашу исходную статью, он достаточно скоро обнаружит, что это настоящая каноническая версия.

Что, если люди скопируют контент с вашего сайта?[/readmore]

Вывод: повторяющийся контент можно исправить, и его следует исправить

Дублированный контент встречается везде.Я еще не встречал сайта с более чем 1000 страниц, на котором не было бы хотя бы крошечной проблемы с дублированием контента. Это то, за чем вам нужно постоянно следить, но это поправимо, и наград может быть много. Ваш качественный контент может подняться в рейтинге, просто избавившись от дублированного контента с вашего сайта!

Оцените свою техническую пригодность к SEO

Исправление дублирующегося контента — неотъемлемая часть вашего технического SEO. Любопытно, насколько соответствует общее техническое SEO вашего сайта? Мы создали технический SEO-тест, который поможет вам понять, над чем вам нужно поработать!

Читайте дальше: Rel=canonical: Полное руководство »

Джуст де Валк

Йоост де Валк — основатель и директор по продукту Yoast.Он интернет-предприниматель, который помимо основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Что вам нужно знать

Создание привлекательного и эффективного сайта WordPress требует усилий и времени — владельцам сайтов сначала нужно провести исследование поисковой оптимизации (SEO) и убедиться, что они ориентированы на правильный рынок, а затем создавать контент, который актуально, точно и увлекательно.

Поэтому неудивительно, что многие владельцы сайтов на WordPress не в восторге от того, что нужно выполнять больше работы, чем необходимо, особенно если есть более простые и быстрые способы получить те же результаты. Подумайте о дублировании страниц и постов: если у вас есть контент, который работает хорошо, часто имеет смысл пересмотреть или переназначить этот контент для другого поста.

Вызов? Быстрое и точное дублирование этого контента для экономии времени и усилий. В этой части мы рассмотрим, почему вы можете захотеть дублировать страницы, как дублировать и удалять страницы вручную, а также какие обязательные плагины WordPress доступны для оптимизации процесса.

Что такое дубликат страницы в WordPress и зачем он мне нужен?

Дубликат страницы — это именно то, на что это похоже: это точная копия исходного сообщения на новой странице WordPress, которую вы можете редактировать, не затрагивая оригинал.

Когда дело доходит до дублирования страницы WordPress, есть два распространенных сценария, в которых этот метод имеет больше смысла, чем создание новой страницы и публикации:

  1. Суть вашего контента не меняется — Допустим, вы создали отличную страницу, содержащую релевантную статистику для вашего целевого рынка.Это может быть превосходная степень о вашей собственной компании, проблемы удовлетворенности, с которыми сталкивается ваш целевой рынок в целом, или даже данные о продажах, демонстрирующие уникальное ценностное предложение вашего сайта. Если эта статистика остается актуальной и вы не планируете обновлять ее в ближайшем будущем, как правило, не стоит тратить время на создание совершенно нового поста и перепечатывание всех этих данных построчно. Вместо этого вам часто лучше продублировать всю страницу и настроить ее по мере необходимости для создания нового фрагмента контента.
  2. Вы не закончили редактирование исходного — Также возможно, что ваша страница находится в стадии разработки. В этом случае вы можете не быть уверены в том, как будет выглядеть конечный продукт, но вы не хотите терять форму и структуру вашей текущей версии, особенно если после редактирования вы решите, что оригинал в целом лучше. Здесь дубликат страницы позволяет вам редактировать сообщение без риска компрометации оригинала и позволяет удалить дубликат, не опасаясь потери исходных данных.

Как дублировать страницу вручную в WordPress

Если вы хотите продублировать одну страницу в WordPress, часто достаточно использовать собственные функции, предлагаемые этой популярной CMS. Вот как это работает.

Сначала войдите в свою учетную запись WordPress и нажмите на страницу, которую хотите продублировать. Убедитесь, что на правой боковой панели выбран параметр «Опубликовать», а не «Блокировать», чтобы скопировать все на странице — в противном случае вы скопируете только то содержимое, которое находится в выбранном блоке.

Затем нажмите на три точки в верхней части правого бокового меню. Найдите опцию в нижней части раскрывающегося меню с надписью «Копировать все содержимое». Если текст изменится на «Скопировано!» после того, как вы нажмете, вы узнаете, что первая часть процесса дублирования прошла успешно.

Теперь вернитесь к «Просмотр сообщений» и выберите «Добавить новое сообщение». Затем дайте своему сообщению заголовок, и как только вы окажетесь в блоке контента, щелкните правой кнопкой мыши и выберите «Вставить» в появившемся меню или используйте Ctrl + V на клавиатуре, чтобы скопировать страницу WordPress.По сути, этот ручной метод — это тот же процесс копирования и вставки, который используется в популярных текстовых процессорах, но это простой способ скопировать одну страницу.

Как удалить дубликаты страниц в WordPress?

Если вы хотите удалить дубликаты страниц в WordPress, процесс очень прост. Сначала выберите параметр «Страницы» в правой части экрана администратора WordPress, затем выберите страницу, которую хотите удалить.

Вы увидите несколько вариантов, включая «Редактировать», «Быстрое редактирование» и «Корзина» — выберите «Корзина», чтобы удалить страницу и отправить ее в корзину WordPress.На практике это означает, что страница не удаляется сразу, поскольку к ней по-прежнему можно получить доступ с помощью горизонтального меню, которое появляется над списком ваших текущих страниц WordPress.

Чтобы окончательно удалить страницу, перейдите в папку «Корзина» и выберите «Удалить навсегда» для соответствующей страницы. Если вы понимаете, что допустили ошибку и не хотите удалять страницу, выберите «Восстановить», и страница вернется к исходному статусу «Опубликовано» или «Черновик».

В целом, процесс удаления страницы прост и имеет очень мало недостатков — даже если вы навсегда удалите дубликат страницы, вы сможете повторно скопировать и воссоздать его из оригинала.

Плагины дубликатов страниц WordPress

Мы узнали, как копировать одну страницу WordPress и как удалять страницы по мере необходимости. Но что произойдет, если вы копируете сразу несколько страниц? Хотя можно взять на себя задачу копирования каждой страницы по отдельности, это требует значительного количества времени и усилий — время и усилия лучше потратить на создание нового контента для вашего сайта или улучшение SEO.

Решение для быстрого дублирования страниц? Плагины для Вордпресс.Давайте рассмотрим несколько вариантов.

1.

Плагин дублирования сообщений

Плагин Duplicate Post делает именно то, что говорит — позволяет дублировать пост или страницу, в дополнение к дублированию другого контента, такого как комментарии, слаги или заказы в меню. Просто установите и активируйте плагин, затем перейдите в «Страницы» → «Все страницы». При наведении курсора на страницу рядом со знакомыми функциями появляются две новые опции: «Клонировать» и «Новый черновик».

Выбор «Клонировать» приведет к дублированию текущего сообщения, а «Новый черновик» создаст клон и откроет его в редакторе сообщений WordPress.Этот плагин также позволяет вам давать клонированным страницам префиксы или суффиксы, такие как «копия» или «дубликат», чтобы вы знали, что есть что.

2.

Дублировать страницу и опубликовать

Duplicate Page and Post предлагает аналогичную функциональность. Сначала перейдите в меню «Все страницы» или «Все сообщения», выберите нужную страницу и нажмите «Дублировать». Новая страница появится в виде черновика в меню ваших страниц с тем же именем, что и оригинал, что позволит вам быстро редактировать или переименовывать ее.

Хотя этот плагин не предлагает такой же глубины возможностей и функций, как некоторые другие инструменты дублирования, его преимущество заключается в легком коде, который обеспечивает чрезвычайно быстрое дублирование страниц и сообщений.

3.

Копировальный аппарат

Post Duplicator — это простота. Найдите страницу, которую хотите продублировать, нажмите «Дублировать страницу», и будет создана новая копия исходной страницы. В зависимости от ваших предпочтений вы можете установить статус дублированной страницы в меню «Инструменты» Post Duplicator — выберите, чтобы дубликаты страниц публиковались по умолчанию, переходили в статус черновика или сохраняли тот же статус, что и у оригинала.

Удвоение ставки

Дублирование страниц и сообщений WordPress может помочь уменьшить объем избыточной работы, необходимой для управления контентом на вашем веб-сайте WordPress.Эта функция особенно полезна, если вы хотите перепрофилировать вечнозеленый контент или создать новый пост, используя текущие данные в качестве основы.

И хотя можно удвоить усилия, используя ручные процессы, присущие самой платформе WordPress, их лучше всего использовать для дублирования или удаления отдельных сообщений. Если вы хотите быстро дублировать несколько страниц и обеспечить их дифференциацию, чтобы упростить редактирование, плагины WordPress — ваш лучший выбор.

Как удалить дубликаты страниц в WordPress?

Работа с WordPress — это настоящее удовольствие при создании веб-сайта с нуля, редактировании, форматировании и добавлении контента.Дело в том, что для бесплатного конструктора веб-страниц с открытым исходным кодом количество функций, плагинов и общая функциональность просто ошеломляют. Что-то, что вам может быть интересно узнать, это , как дублировать страницу в WordPress .

Если вы хотите дублировать страницу WordPress, а не просто копировать и вставлять содержимое на новую страницу вручную, это может сэкономить много времени. Дублируя страницу, вы не потеряете все свое SEO и другое форматирование, как при копировании и вставке.

Если у вас есть дубликаты страниц и вам нужно избавиться от одной из них, это так же легко сделать. Мы хотим обсудить, как удалять одинаковые сообщения в WordPress и почему вы можете захотеть это сделать в первую очередь.

Зачем удалять повторяющиеся страницы?

Возможно, вам интересно, почему важно удалять повторяющиеся сообщения. Есть несколько причин, по которым вам следует подумать об удалении дубликатов.

Во-первых, если у вас есть красивый веб-сайт, а затем ваши посетители замечают, что у вас есть две идентичные или почти идентичные страницы, это просто не будет выглядеть хорошо или авторитетно.Если вы пытаетесь быть авторитетом в определенной области или хотите продать товар или услугу, наличие дубликатов страниц, которые хорошо видны посетителям, не вызовет у вас доверия.

Если вам нужно отредактировать страницу, вы можете в конечном итоге отредактировать не ту страницу, если вы спешите — если у вас их две. Это не конец света, но кто может терять время?

WordPress, конечно же, использует серверы, и все на вашем сайте должно загружаться. Чем больше контента на вашем сайте, тем больше времени потребуется этим серверам для загрузки вашего сайта.Это означает, что WordPress загружается дольше, поэтому вы можете вносить изменения, а также увеличивает время загрузки для людей, посещающих сайт. Если вы знаете что-нибудь о посетителях веб-сайта, быстрая загрузка  время имеет жизненно важное значение.

Другая причина, по которой дублирование страниц — не лучшая идея, связана с SEO. Google не любит, когда один и тот же контент дублируется на нескольких страницах. Наличие дубликатов негативно повлияет на ваш рейтинг SEO .

Как удалить дубликат страницы за несколько шагов

Чтобы удалить эти дубликаты страниц WordPress, выполните шаги, описанные ниже. Как вы скоро узнаете, процесс прост и займет всего несколько минут.

  1. Загрузите и установите плагин WordPress под названием «Сообщения, страницы и электронные таблицы пользовательских типов сообщений».
  2. После установки этого плагина откройте электронную таблицу, которую вы будете использовать для редактирования и удаления дубликатов страниц.Для страниц перейдите в редакторы листов и выберите «Редактировать страницы». Вы увидите, что все ваши страницы аккуратно отображаются в электронной таблице.
  3. Прежде чем удалить дубликат, чтобы посетители не увидели ошибку 404 для отсутствующей страницы, вам сначала нужно скачать и установить плагин «Перенаправление». Этот плагин автоматически создаст направление 301, поэтому, если люди посетят дубликат, они будут автоматически перенаправлены на соответствующую страницу.
  4. В редакторе листов откройте инструмент «массового редактирования», который позволит вам удалить дубликаты страниц всего за несколько кликов.
  5. В разделе массового редактирования сначала выберите строки, которые вы хотите обновить, затем поле, которое вы хотите изменить, тип редактирования (удаление дубликатов) и выберите дубликаты, которые вы хотите удалить. После того, как вы сделали все необходимые выборы, нажмите «Выполнить сейчас». Дублирующая страница теперь должна быть удалена.

Заключение

Удалить дубликат страницы несложно. Имейте в виду, что вы можете выполнить шаги, описанные выше, чтобы удалить повторяющиеся сообщения.