Содержание

Что такое стоп-слова? Допустимый процент вхождения стоп-слов в текстах

SEO-тексты отличаются от простых текстов тем, что с помощью ключевых слов/ фраз оптимизируются под определенные поисковые запросы, облегчая пользователям поиск нужной информации. Проводить SEO-оптимизацию нужно грамотно, учитывая не только релевантность ключевиков содержанию страницы, но и множество других, влияющих на результат факторов. Поскольку, для того чтобы индексировать, а затем выдать пользователю максимально соответствующие его запросу веб-страницы, поисковые роботы подвергают содержание каждой из них тщательному анализу по многим параметрам. Наиболее важными среди них являются правильная концентрация в представленном контенте ключевых фраз, оптимальная тошнота текста и пропорция значимых и шумовых слов. Последние принимают активное участие в формировании каждого из этих параметров, поэтому познакомимся с ними поближе.

Что такое стоп-слова?

Стоп-слова (иначе называемые шумовыми) – это слова, знаки, символы, которые самостоятельно не несут никакой смысловой нагрузки и просто игнорируются поисковыми системами при осуществлении ранжирования или индексации сайтов. Но которые, тем не менее, совершенно необходимы для нормального восприятия текста, его целостности, читабельности. Без использования стоп-слов невозможно создать полноценный контент, хорошо воспринимаемый не только поисковиками, но и людьми. При написании SEO-текста они позволяют максимально органично вписать в него ключевые фразы, соединив несогласованные между собой ключевые слова с помощью предлогов или разделив их знаками препинания.

 * — Примеры стоп-слов выделены в предыдущем абзаце.

Перечни стоп-слов (индивидуальные для каждой из поисковых систем, таких как Яндекс или Гугл) регулярно обновляются, поэтому представить их здесь полностью практически невозможно. Чаще всего стоп-слова подразделяют на 2 группы: общие, зависимые.

  • К общим относят предлоги, частицы, междометия, союзы, наречия, местоимения, вводные слова, числа от 0 до 9 (однозначные), другие часто употребляемые служебные, самостоятельные части речи, символы, знаки препинания. Относительно недавно этот список пополнили такие часто используемые в сети Интернет последовательности символов, как www, com, http и др.
  • Во вторую группу попадают слова, которые в ключевом запросе определяются, как второстепенные. Пример: в запросе «Лев Николаевич Толстой» поисковые системы выделяют основной компонент запроса – «Толстой» и второстепенные, то есть зависимые стоп-слова, имеющие значение только рядом с главным ключевым словом, – «Лев», «Николаевич». Поэтому среди выпавших в поисковой выдаче страниц будут только те, которые содержат значимый компонент запроса – «Толстой». Зависимые стоп-слова будут учитываться только при его наличии рядом с ними.

Стоп-слова и поисковые роботы

Все вышеперечисленные шумовые слова удаляются поисковыми роботами из текстов при их индексации, из ключевых фраз при определении соответствия документа конкретному запросу, заменяясь специальными символами – маркерами (*). Это делается с целью уменьшения размеров индекса, снижения нагрузок на сервер, рационального использования пространства баз данных. Кроме того, вычеркивание стоп-слов из запросов позволяет сократить количество операций по поиску каждого элемента ключевой фразы, а значит, повысить скорость, эффективность поиска нужной информации, сохранив релевантность запроса. Если вы хотите, чтобы система учла ваш ключевой запрос целиком (включая общие или зависимые стоп-слова), вам нужно для этого просто добавить к фразе знак «+». 

И снова повторимся. Несмотря на полное игнорирование шумовых слов со стороны поисковых систем, при создании связных, интересных для интернет-пользователей текстов без них не обойтись. Поэтому важно найти оптимальный баланс между их откровенным недостатком и явным переизбытком, удерживая правильное их соотношение с общей массой слов и ключевыми фразами. При недостатке шумовых слов вы получите сухой, нечитаемый текст, понятный только поисковым роботам, но совершенно неинтересный для посетителей сайта. А при переизбытке – текст с повышенной водностью, утяжеляющей его восприятие читателями и размывающей суть изложенной информации.

Оптимальная концентрация стоп-слов по отношению к общему количеству слов в тексте составляет около 30%, уровень тошноты текста (на которую также влияет количество стоп-слов) старайтесь удерживать в пределах значения указанных в таблице.

Символов

Слов

Допустимая тошнота*

До 1000

~167

До 3

До 2000

~334

До 3.5

До 3000

~500

До 4

До 4000

~667

До 4.5

До 5000

~834

До 5

До 6000

~1000

До 5.5

До 7000

~1167

До 6

* Данные значения являются усредненными и не значительно отличаться для разных тематик.

В качестве вывода:

обязательно учитывайте факт пропуска стоп-слов поисковиками при формировании поисковых запросов, ключевых фраз для SEO-текстов и определении их правильной плотности, которая неминуемо повысится после замены всех стоп-слов маркерами. Но при этом не забывайте, что текст должен оставаться читабельным. Для определения оптимального количества шумовых слов в статье в помощь авторам и оптимизаторам существует множество специализированных сервисов и программ для SEO-анализа текстов. Мы привыкли пользоваться Textus Pro и Advego.

Если же для вас это сложно, то звоните нам или заказывайте услугу продвижения сайта по словам.

Хочешь стать экспертом в SEO?

Пройди курсы от SEO Интеллект

Подробнее

Понравилось? Репост!

Зачем нужно стоп-слово в сексе и как его выбрать

Что такое стоп‑слово

Стоп‑слово используется, когда один из партнёров по какой‑то причине хочет приостановить процесс. Может, движения стали чересчур интенсивными, человеку физически некомфортно или больно, партнёр перешёл границу в ролевой игре или какая‑то зона получает слишком много стимуляции. В любом из этих случаев можно произнести стоп‑слово — партнёр тут же остановится.

Стоп‑слова пришли из БДСМ‑культуры и часто ассоциируются с необычными видами секса. Но возможность быстро подать сигнал о дискомфорте пригодится всегда. Неважно, что пошло не так: связывание или миссионерская поза. Кем бы ни был ваш партнёр, как бы долго вы ни были вместе, каким бы видом секса ни занимались — вы имеете право попросить тайм‑аут в любой момент.

Сейчас читают 🖤

Как выбрать стоп‑слово

Можете взять всем понятный вариант с цветами светофора. В порыве страсти проще будет вспомнить что‑то знакомое, да и разница между красным и жёлтым каждому ясна. Например, говорите «красный», когда хотите остановить текущее действие, и «стоп красный», когда нужно прекратить вообще всё.

Если пожелаете придумать что‑то другое, учтите несколько важных моментов. Во‑первых, слово должно хорошо запоминаться и легко произноситься. Во‑вторых, это должно быть то, что вы вряд ли скажете во время секса. Можно взять название продукта питания или предмета, который не ассоциируется у вас с интимной близостью. Например, пользователи Reddit предлагают такие варианты, как «майонез», «спагетти», «Армагеддон» и «телепузик». Или используйте шутку, понятную только вам двоим, чтобы разрядить атмосферу.

Если вы не любитель разговаривать во время секса или вам неудобно произносить такое слово вслух, придумайте какой‑то жест или другой физический сигнал. Например, похлопать по плечу, подмигнуть, пощёлкать пальцами или даже промычать простенькую мелодию. Выбирайте что‑то несложное и понятное, чтобы партнёр мог легко заметить ваш сигнал. Как и слово, он должен быть чем‑то таким, что вы обычно не делаете во время секса.

Попробуйте 🍑

Как использовать стоп‑слово

Не произносите его по пустякам. «Стоп‑слово имеет определённый вес, — говорит специалист по половому просвещению и доминатрикс Лола Джин. — Если вы сказали его, это значит, что дело серьёзное. Это значит „А ну‑ка замедлись и убедись, что со мной всё в порядке!“»

После того как выберете стоп‑слово, не забудьте обсудить, как именно оно будет применяться в вашей паре. Обычно это сигнал, означающий «Остановись прямо сейчас». Но вы можете договориться, что при таком обстоятельстве партнёру нужно будет отодвинуться от вас или, наоборот, обнять и успокоить. Используя стоп‑слово, вы на время отзываете своё согласие на секс. Однако партнёру не стоит обижаться или огорчаться. Вы же не навсегда отказываете ему в близости, а просто берёте тайм‑аут.

Если потребность воспользоваться условным знаком возникла, потому что партнёр перешёл ваши личные границы, обязательно обсудите с ним, что именно вы чувствуете и что вам нужно, чтобы секс снова ощущался комфортным и безопасным. Не забывайте, что границы существуют не просто так, а произнесение стоп‑слова не сделает вас слабым.

Читайте также 🧡

Стоп-слова – что это такое и как правильно применять.


Стоп-слова – seo-термин, обозначающий слова, не обладающие смысловой нагрузкой («шумовые слова»).


Что считать стоп-словами?


Стоп-слова – название слов-связок, без которых невозможно построение полноценного текст, обладающего должным смыслом. Включают в себя:


  • Вводные слова;

  • Знаки препинания;

  • Междометия;

  • Местоимения;

  • Предлоги;

  • Союзы и союзные слова;

  • Указательные слова;

  • Цифры;

  • Частицы.


Это могут быть определённые существительные, глаголы, наречия (всегда, давать, например, однако и т.п.).


Поскольку алгоритмы поисковых системнеустанно развиваются и совершенствуются, происходит периодическое обновление и изменение списков стоп-слов. Собственная база стоп-слов имеется у всех поисковиков. При написании текстов обязательное внимание стоит обращать на вхождение стоп-слов из вышеуказанных категорий и соотношение их с общей словесной массой, включая ключевые слова.


Значение для поисковых роботов и пользователей


Стоп-слова не оказывают никакого влияния на поисковые системы, автоматически пропускаясь при индексации для того, чтобы сэкономить пространство баз данных. Данный факт обязательно следует учитывать при продвижении сайта в момент составления поисковых запросовс определением плотности ключевых слов, что касается контентного наполнения страниц.


Увеличение количества стоп-слов в тексте приводит к затруднённому восприятию читателями и создаёт впечатление «водянистости». Если стоп-слов в тексте недостаточно (оптимизатор ориентировался преимущественно на поисковые роботы, а не на читателя), такой контентпостепенно становится неинтересным пользователю.

Услуги, связанные с термином:

что это и какие слова не нужно использовать на сайте

Делаем вашу страницу интересной и стимулируем подписчиков почаще заглядывать к вам на страницу или на сайт за покупками

Стоп-слова — это фразы и слова, которые не несут смысловой нагрузки и затрудняют индексирование страницы поисковыми системами.

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Представьте, что вы едите салат оливье. В него помимо нужных ингредиентов добавили зачем-то кусочки ананаса. В итоге вкус блюда ужасен. Ананас не позволяет почувствовать вкус оливье.

Со стоп-словами так же. Они не нужны в тексте. Они не дают поисковым роботам ранжировать страницу. Они не влияют на смысл текста. Они не помещаются в сниппет в выдаче. Это — мусор, который не нужен в сильном тексте. От мусора нужно избавляться.

Какие бывают стоп-слова и как влияют на ранжирование в Гугл и Яндекс

Каждый день в индекс поисковых систем заносится большое число страниц. Чтобы экономить место на сервере, поисковые машины не учитывают некоторые слова, отбрасывают часть букв, цифры, одиночные местоимения. Они помечаются специальным маркером и не индексируются роботами.

Не используйте стоп-слова в метатегах title и description.

Стоп-слова делят на две группы.

  • Общие.
    К этой группе относят суффиксы, частицы, предлоги, цифры, частицы, личные местоимения. Они никогда не включаются в индекс поисковиков. Исключение — когда поиск идет по точному соответствию фразе из запроса.
  • Зависимые.
    Это слова, которые зависят от поискового запроса. Иногда некоторые слова из ключевой фразы можно выбросить. Например, если поиск осуществляется по ключу «Лев Николаевич Толстой», отобразятся страницы, которые содержат слова «Лев Николаевич», «Толстой». Но не попадут в выдачу те результаты, где есть просто «Лев», «Николаевич». Эти слова называются шумовыми.

Как стоп-слова влияют на текст при копирайтинге

Стоп-слова не нужны в тексте. Когда копирайтер пишет статью, ему хочется вставить в текст вводные слова: «Соответственно», «тем не менее», «так» и т. д.

Сравним два предложения.

Мороз стоял сильный, соответственно, занятия в школе отменили.

Из-за мороза школы закрыты.

Смысл предложений одинаков — и там, и там говорится, что школа закрыта, дети не учатся. Посмотрите хотя бы на длину этих двух высказываний, на лаконичность.

Человеку, который пишет текст, нужно следить за своей речью. В 95% случаев предложение можно переписать без использования вводных слов, причастных и деепричастных оборотов. Можно сократить число предлогов, местоимений и союзных слов до минимума.

Если вы пишете текст, постоянно перечитывайте то, что уже написали. Не бойтесь сокращать текст. Читатели и поисковые роботы скажут вам спасибо.

Денис Давыдов

Контент-маркетолог

Я работаю с биржей копирайтинга. В день проверяю больше 15 текстов. Постоянно возникает ситуация, когда текст надо сокращать. Чтобы набрать нужное количество символов, автор использует ненужные слова — вводные, обороты, лишние союзы и местоимения. После редактуры такой текст сокращается на 30-40%. Я требую, чтобы вместо воды и стоп-слов писатель использовал какие-то факты, приводил статистику. Например — хоть это и не относится к стоп-словам — любой риторический вопрос можно заменить ответом. Читателю не нужны вопросы, читателю нужны ответы. Это относится и к стоп-словам. Пишите текст и не бойтесь потом его сокращать. Читателю скажут вам спасибо.

Как поисковые системы учитывают стоп-слова

Роботы должны отличать ненужную информацию от нужной. Однозначные числа не индексируются. А вот длинные — например, номера телефонов, адреса организаций, дата или время — попадают в индекс. Это важная информация, пренебрегать ею нельзя.

Если вам нужно обязательно привлечь внимание поисковой системы к стоп-слову — например, если это часть ключа — поставьте перед ним символ «+». Это повысит частотность запроса.

Какие стоп-слова не нужно использовать

  • Псевдо-коммерческие слова: бесплатно, даром, скачать.
    Эти слова не несут никакой нагрузки в коммерческом тексте.
  • Названия брендов.
    Если вы пишете тематический текст, не используйте названия конкурирующих товаров, компаний.
  • Слова игровой тематики, связанные с соцсетями.
  • Слова, не относящиеся к теме вашего сайта.
  • Ключевые запросы, связанные с софтом.
  • Нецензурная лексика.
  • Лексика порнографического характера.

Следите за тем, что и как вы пишите. Стоп-слов нужно как можно меньше. Но если без них никак не обойтись — не бойтесь их употреблять. В первую очередь вы должны сделать материал привлекательным для читателя, а потом уже для поисковой системы.

Если пишете тематическую статью, стоп-словами для вас будут так же термины, которые относятся к теме. Если страница с текстом оптимизируется под определенную ключевую фразу, при сборе семантического ядра специфичные термины и названия так же будут расценены поисковой системой как стоп-слова.

Нецезурная лексика, брань и пошлые выражения не ценятся ни одной поисковой системой. Любое нецензурное ругательство можно заменить литературным аналогом. Вы же пишете текст, а не говорите с товарищем по подъезду. Следите за литературностью речи.

Как проверить текст на стоп-слова

Вы можете воспользоваться сервисами, которые проверяют текст на стоп-слова онлайн. Самый мощный инструмент — сервис Главреда. Он проверяет материал на соответствие информационному стилю. Он показывает уровень воды в тексте, указывает на фрагменты, которые можно переписать без стоп-слов.

Сервис Advego тоже поможет вам оценить уровень вашего текста. Загрузите текст на биржу, запустите семантический анализ.

Стоп-слова не учитываются поисковиками. Они влияют на читаемость текста. Чем их меньше — тем легче воспринимается материал. Нет никакого смысла спамить такими словами. Но следите за тем, как вы пишите. И если вам точно нужно вставить такое слово, смело пишите. Статья должна быть написана в первую очередь для людей. Потом — для поисковых машин.

Перечитайте ваш текст. Оцените грамотность и логичность изложения. Сократите его, уберите лишнее. И ответьте на вопрос: «Поймет ли сторонний человек смысл статьи, то, что вы хотите до него донести?»

Сильный текст на вашем сайте — залог успешного ранжирования и привлечения посетителей.

Что такое «стоп-слова» и зачем они нужны?

06.07.2021 16:18 
Просмотров: 937

Не ошибусь, если скажу, что каждая семья в тот или иной период взросления ребенка сталкивается с его упертостью и капризами, причем это случается в самый неподходящий момент: нужно торопиться в садик/школу, к врачу или даже просто нужно с утра почистить зубы, а ребенок непреклонен: «Не буду, не хочу, не нравится», и как будто специально замедляется, делает все наперекор. Тогда я вспоминаю героя из мультфильма «Головоломка» по имени Гнев, у которого в моменты злости на голове загорался огонь.

Чтобы не доводить ситуацию до конфликта, психологи рекомендуют родителям использовать технику «СТОП-СЛОВА», когда определенное слово превращается в сигнал к окончанию капризов. Объемная фраза взрослого: «Все, перестань, и сделай так, как прошу, иначе нам обоим будет хуже!» — укладывается в одно СТОП-СЛОВО. Его могут использовать все члены семьи в случаях, когда другого «несет». Подберите это слово вместе с ребенком/детьми. Например, это могут быть слова «лимон» или «салют» или просто «стоп». И когда ребенок слышит это «заветное слово», быстренько все делает, по пути надевая туфли, доедая кашу и бутерброд. Проверено!

Что может служить стоп-словом?

Да буквально любое – «Апельсин» или «Вертолет», к примеру, или «Звезда». А произнесенное ледяным тоном, оно действует круче других грозных фраз. Такое произношение стоп-слов мгновенно приводит детей в чувство, как холодный душ. Быстро, действенно и безотказно в любой ситуации.

Рекомендую придумать стоп-слова и для ребенка

Задумайтесь, если нам, взрослым, сложно совладать со своими эмоциями в экстренных ситуациях, то что говорить о детях — их психика только формируется.

Ребенок может испытывать разрушающие эмоции, когда что-то не получается, когда торопится, когда шнурки не так завязываются, а футболка почему-то оказалась мятой. И мама торопит, а еще хуже — напоминает, как просила повесить одежду на вешалку. И здесь тоже помогут СТОП-СЛОВА: когда ребенок их произносит, то вы понимаете, что лучше его обнять, предложить помощь, поддержать или просто помолчать. Заветное слово сообщает, что ребенок на грани. Надо менять тактику, ведь иногда нас как понесет в нравоучения, что и не остановишь. Лучше на мгновение остановиться, помолчать, обняться, чем нагнетать обстановку и в итоге получить скандал, истерику и слезы. Зачем?

Разговаривая с ребенком о чувствах, обратите его внимание на то, что людям иногда бывает сложно справиться с ситуацией – и это нормально. С малышами можно обсуждать такие моменты на примерах сказок, мультфильмов и т. п.

Слово надо подобрать свое – личное, сильное, значимое именно для вас с ребенком. Чем страннее будет ваш код – тем лучше. Теперь его нужно закрепить, обыгрывая в шуточно-грозных сценках, и обсудить все случаи, когда и как его можно использовать. Сделать это надо потому, что в момент ссоры, срыва или конфликта незакрепленное стоп-слово трудно вспомнить – не до него.

Правила использования стоп-слов:

  • ребенок точно знает, как звучит СТОП-СЛОВО и что под ним подразумевается;

  • ребенок знает, какие ограничения последуют;

  • если ребенок сам использует стоп-слово, то родитель также знает, как вести себя;

  • использовать стоп-слово только когда оно необходимо – иначе оно перестает работать.

Стоп-слова – это:

  • прекрасная поддерживающая техника в жизни семьи;

  • возможность уменьшить скандалы и найти общий язык, стать ближе друг к другу — частые крики и срывы отдаляют людей;

  • сохранность психики мамы и папы, а значит — спокойствие в семье.

Дети нередко проверяют нас на прочность, но благодаря нам, родителям, и учатся справляться с трудностями, формировать выносливость и спокойствие. Кто, как не мы, научит их этому? И стоп-слова нам в помощь!

Екатерина Демурия

Источник: https://www.ya-roditel.ru/parents/base/experts/chto-takoe-stop-slova-i-zachem-oni-nuzhny/

Количество показов: 937
Дата изменения: 06.07.2021 16:19:35

Ильяхов: 11 заметок с тегом стоп-слова

Ильяхов: 11 заметок с тегом стоп-слова

Rose debug info
---------------



Тег: стоп-слова





Было Данный микрофон обеспечивает оптимальный звуковой охват за счёт передовых технологий, а также надежное высококачественное поглощение вибраций за счет инновационной системе подвесов

Вот несколько примеров: .error{ color: #dA570f; font-style: normal;…





В информационном стиле есть понятие мусора. Это слова и выражения, которые не несут смысла для читателя





Есть такой корпоративный штамп «товары и услуги». Юридически он верный: фирма продает товары и оказывает услуги

Все неопределенное — кандидаты в стоп-слова. Читаю какие-то статьи, отвечаю на какие-то звонки → Читаю статьи, отвечаю на звонки

Сослагательное наклонение и частица «бы» — кандидаты в стоп-лист

В продолжение разговора о словах «просто» и «но». У Карнеги наконец-то нашёл почти универсальную пилюлю от «но»

Слова вроде: действительно, реально, на самом деле…

Такой комментарий подойдёт любой книге: Книга очень понравилась, никого не оставит равнодушным. Отличается интересным стилем, читается легко, доступна любому виду читателей

«Просто» — опасное слово-паразит. Оно всплывает, когда человек оправдывается

This text was created with a very old version of Aegea that used a formatter called Calliope. It is no longer included with Aegea 2


Стоп слово — что это? Примеры списков стоп слов от Семён Ядрён

Стоп слова в семантике

Стоп слово в семантическом ядре — это слово, которое является не целевыми для выбранной тематики.

Например: для тематики «клининг, уборка квартиры», стоп слова будут: пшеница (уборка пшеницы), игра (игра об уборке для девочек) и т.д.

Другие встречаемые варианты терминов стоп слов:

  • минус слова
  • мусорные ключи
  • не целевые запросы

Стоп слова в seo используются для:

  • при обязательной чистке семантического ядра от различного мусора и не целевых тематик.
  • для правильной настройки контекстной рекламы, исключив показы объявления для не целевой аудитории.

Скачать примеры

Что такое стоп слова в тексте

Понятие стоп-слова в тексте документа — это фразы и слова, которые не несут смысловой нагрузки и затрудняют индексирование страницы поисковыми системами. Стоп-слова не любят редакторы и поисковые системы.

Примеры стоп слов в тексте:

  • Междометия: ах, ух, ну, уж, ой.
  • Местоимения: я, мы, мой, вы, ваш.
  • Неопределенность: где-то, что-то, зачем-то, как-то, какой-то, около, порядка, примерно, всего.
  • Вводные структуры: на самом деле, допустим, скажем.
  • Слова-усилители: предельно, максимально, наиболее, очень, самый, абсолютно, сильно.
  • Оценочные: роскошный, уютный, красивый, дорогой (не следует сочетать их со словами из предыдущего пункта).
  • Очевидные формулировки: данный документ, этот сайт, на данной странице, кликните эту кнопку, нажмите тут, форма внизу страницы.
  • Бытовые штампы: направо и налево, сплошь и рядом, шаг за шагом, так или иначе, мало-помалу.
  • Штампы, характерные для прессы: ударными темпами, пески времени, царила атмосфера, в лучших традициях.
  • Штампы корпоративного или рекламного характера: индивидуальный подход, решать бизнес-задачи, завоевать доверие клиентов, расширить географию продаж.
  • «Временные» слова-паразиты: в наши дни, в настоящее время, в современном мире.
  • Словосочетания с отглагольными существительными: оказывать услуги по ремонту, производить ремонт, осуществлять деятельность.
  • Модальные фразы: нужно пройти процедуру, можете авторизоваться, должны завершить заказ.
  • Страдательные глаголы и сказуемые в безличных предложениях: спорткомплекс построен по заказу мэрии, леса вырубают.

Для анализа и подсчета стоп-слов в тексте, можно воспользоваться — advego.ru/text/seo/

Видео

Общие стоп слова

Общие стоп слова — это предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции. Источник: wikipedia

В качестве вывода

Стоп слова — одинаково вредны, как при составлении семантического ядра, так и при написании текста.

Что такое стоп-слова? — Opinosis Analytics

Стоп-слова — это набор часто используемых слов в языке. Примеры стоп-слов на английском языке: «a», «the», «is», «are» и т. Д. Стоп-слова обычно используются в интеллектуальном анализе текста и обработке естественного языка (NLP) для исключения слов, которые так часто используются, что несут очень мало полезной информации.

Например, в контексте поисковой системы, если ваш поисковый запрос — «какое стоп-слово?» , вы хотите, чтобы поисковая система фокусировалась на обнаружении документов, которые говорят о стоп-слове , по документам, которые говорят о , что такое .

Это можно сделать, поддерживая список стоп-слов (который можно настраивать вручную или автоматически) и предотвращая анализ всех слов из вашего списка стоп-слов. В этом примере слова , которые являются , можно исключить, оставив только слова: стоп-слово . Это гарантирует, что тематически релевантные документы будут иметь высокий рейтинг в результатах поиска.

Стоп-слова для контекста

Хотя стоп-слова обычно используются для удаления слов с низкой информацией, стоп-слова также могут стать мощным средством добавления контекста.Например, в запросе «что такое стоп-слово?» , , если вы знаете, что это на самом деле вопрос , что такое , а не вопрос , как на вопрос , вы можете дополнительно уточнить результаты, показываемые пользователям. Один из способов узнать это — просто взглянуть на слова, не относящиеся к теме. Если у вас есть эта контекстная информация, вместо рейтинга «Как использовать стоп-слова?» в самом верху результатов поиска вы можете научить свои алгоритмы ранжировать документы, связанные с вопросом «Что такое стоп-слова?» намного выше.

Где найти список стоп-слов?

Существуют установленные списки стоп-слов, которые можно легко подключить и использовать. Некоторые списки стоп-слов являются результатом исследовательской работы НЛП, а некоторые просто вручную составлены разными людьми. Вот несколько слов, которые вы можете попробовать на разных языках:

Списки стоп-слов для конкретной области

Хотя опубликованный набор стоп-слов довольно легко использовать, во многих случаях таких стоп-слов недостаточно. Например, в клинических текстах такие термины, как «мкг» «доктор.»И« пациент »встречаются почти в каждом документе, с которым вы сталкиваетесь. Таким образом, эти термины можно рассматривать как потенциальные стоп-слова для интеллектуального анализа и поиска клинических текстов.

Точно так же для твитов такие термины, как «#», «RT», «@username», могут потенциально рассматриваться как стоп-слова. К сожалению, стоп-слова для конкретных языков не охватывают термины, относящиеся к конкретной предметной области. Хорошая новость заключается в том, что вы можете легко создать свой собственный список стоп-слов для конкретной предметной области. В этой статье рассказывается о нескольких идеях о том, как создавать такие списки.

Предварительная обработка текста: удаление стоп-слов | Chetna

Удобное руководство по удалению английских стоп-слов в Python

Изображение Kai на Unsplash

Мы хорошо осведомлены о том, что компьютеры могут легко обрабатывать числа, если они хорошо запрограммированы. 🧑🏻‍💻 Однако большая часть информации, которой мы располагаем, представлена ​​в виде текста. 📗 Мы общаемся друг с другом, напрямую разговаривая с ними или используя текстовые сообщения, сообщения в социальных сетях, телефонные звонки, видеозвонки и т. Д.Для создания интеллектуальных систем нам необходимо использовать эту информацию, которой мы располагаем в изобилии.

Обработка естественного языка (NLP) — это отрасль искусственного интеллекта, которая позволяет машинам интерпретировать человеческий язык. 👍🏼 Однако то же самое нельзя использовать непосредственно в машине, и нам необходимо предварительно обработать то же самое.

Предварительная обработка текста — это процесс подготовки текстовых данных, чтобы машины могли использовать их для выполнения таких задач, как анализ, прогнозирование и т. Д.Предварительная обработка текста включает множество различных шагов, но в этой статье мы познакомимся только со стоп-словами, почему мы их удаляем, а также с различными библиотеками, которые можно использовать для их удаления.

Итак, приступим. 🏃🏽‍♀️

Что такое стоп-слова? 🤔

Слова, которые обычно отфильтровываются перед обработкой естественного языка, называются стоп-словами . На самом деле это самые распространенные слова в любом языке (например, артикли, предлоги, местоимения, союзы и т. Д.), И они не добавляют много информации к тексту.Примеры нескольких стоп-слов на английском языке: «the», «a», «an», «so», «what».

Почему мы удаляем стоп-слова? 🤷‍♀️

Стоп-слова в изобилии доступны на любом человеческом языке. Удаляя эти слова, мы удаляем низкоуровневую информацию из нашего текста, чтобы уделить больше внимания важной информации. Другими словами, мы можем сказать, что удаление таких слов не показывает каких-либо негативных последствий для модели, которую мы обучаем для нашей задачи.

Удаление стоп-слов определенно уменьшает размер набора данных и, таким образом, сокращает время обучения из-за меньшего количества токенов, задействованных в обучении.

Всегда ли мы удаляем стоп-слова? Всегда ли они бесполезны для нас? 🙋‍♀️

Ответ — нет! 🙅‍♂️

Мы не всегда удаляем стоп-слова. Удаление стоп-слов во многом зависит от выполняемой нами задачи и цели, которую мы хотим достичь. Например, если мы обучаем модель, которая может выполнять задачу анализа тональности, мы можем не удалять стоп-слова.

Обзор фильма: «Фильм был совсем не хорош».

Текст после удаления стоп-слов: « фильм хороший»

Хорошо видно, что отзыв к фильму был отрицательным.Однако после удаления стоп-слов отзыв стал положительным, что не соответствует действительности. Таким образом, удаление стоп-слов здесь может быть проблематичным.

Такие задачи, как классификация текста, обычно не требуют стоп-слов, поскольку другие слова, присутствующие в наборе данных, более важны и дают общее представление о тексте. Итак, в таких задачах мы обычно удаляем стоп-слова.

Короче говоря, у НЛП есть много задач, которые не могут быть выполнены должным образом после удаления стоп-слов.Итак, подумайте, прежде чем выполнять этот шаг. Загвоздка здесь в том, что нет универсальных правил и универсальных стоп-слов. Список, не содержащий важной информации для одной задачи, может передать большой объем информации для другой задачи.

Предупреждение: Прежде чем удалять стоп-слова, немного изучите свою задачу и проблему, которую вы пытаетесь решить, а затем примите решение.

Какие существуют библиотеки для удаления стоп-слов? 🙎‍♀️

НЛП сегодня является одной из наиболее исследуемых областей, и в этой области было сделано много революционных разработок.НЛП опирается на передовые вычислительные навыки, и разработчики по всему миру создали множество различных инструментов для работы с человеческим языком. Из такого большого количества библиотек некоторые довольно популярны и очень помогают в выполнении множества различных задач НЛП.

Некоторые из библиотек, используемых для удаления английских стоп-слов, список стоп-слов вместе с кодом приведены ниже.

Набор инструментов для естественного языка (NLTK):

NLTK — потрясающая библиотека для игры с естественным языком.Когда вы начнете свое путешествие по НЛП, это первая библиотека, которую вы будете использовать. Шаги по импорту библиотеки и списка английских стоп-слов приведены ниже:

  import  nltk 
from nltk.corpus import stopwords
sw_nltk = stopwords.words ('english')
print (sw_nltk )

Вывод:

 ['я', 'я', 'мой', 'я', 'мы', 'наш', 'наш', 'мы', 'ты', "ты", «вы», «вы», «вы бы», «ваш», «ваш», «себя», «себя», «он», «его», «его», «сам», 'она', 'она', 'она', 'ее', 'сама', 'оно', "это", 'его', 'сама', 'они', 'они', 'их', 'их ',' себя ',' что ',' which ',' who ',' who ',' this ',' that ',' that will ',' this ',' that ',' am ',' есть , 'сделал', 'делаю', 'а', 'ан', 'то', 'и', 'но', 'если', 'или', 'потому что', 'как', 'до', 'пока ',' of ',' at ',' by ',' for ',' with ',' about ',' Again ',' between ',' into ',' through ',' во время ',' до ', "после", "выше", " ниже ',' в ',' от ',' вверх ',' вниз ',' внутрь ',' вне ',' вкл ',' выкл ',' над ',' под ',' снова ',' дальше ' , 'затем', 'однажды', 'здесь', 'там', 'когда', 'где', 'почему', 'как', 'все', 'любой', 'оба', 'каждый', ' немного »,« больше »,« большинство »,« другие »,« некоторые »,« такие »,« нет »,« ни »,« не »,« только »,« свой »,« такой же »,« так » , 'чем', 'тоже', 'очень', 's', 't', 'can', 'will', 'just', 'don', "not", 'should', "should ' ve ", 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren'," не ", ' couldn ', «не мог»,' didn ', «not»,' doesn ', «does not»,' hadn ', «hadn't»,' hasn ', «hasn't»,' haven ', "не",' isn ', "not",' ma ',' mightn ', "could not",' mustn ', "must not",' needn ', "needn" t ", 'шань'," не должен ", 'не должен'," не должен ", 'не было'," не было ", 'не было'," не было ", 'выиграл'," выиграл " t ", 'не было бы'," не было бы "] 

Давайте проверим, сколько стоп-слов есть в этой библиотеке.

  печать  ( len  (sw_nltk)) 

Вывод:

 179 

Удалим стоп-слова из текста.

 text = "Когда я впервые встретил ее, она была очень тихой. Она оставалась тихой в течение всего двухчасового путешествия из Стоуни-Брук в Нью-Йорк." Words = [слово  вместо  слова  в тексте .  split ()   если  слово.  ниже ()   не в  sw_nltk] 
new_text = "". соединение (слова) печать (новый_текст)
печать («Старая длина:», len (текст))
print («Новая длина:», len (новый_текст))

Приведенный выше код довольно прост, но я все же объясню его для новичков.У меня есть текст, и я разбиваю его на слова, так как стоп-слова — это список слов. Затем я изменил слова на строчные, так как все слова в списке стоп-слов написаны строчными буквами. Затем я создал список всех слов, которых нет в списке стоп-слов. Полученный список затем объединяется, чтобы снова сформировать предложение.

Вывод:

 первая встреча тихая. молчал все двухчасовое путешествие по Стоуни-Брук в Нью-Йорк. 
Старая длина: 129
Новая длина: 82

Мы ясно видим, что удаление стоп-слов сократило длину предложения со 129 до 82.

Обратите внимание, что я буду использовать аналогичный код для объяснения стоп-слов в каждой из библиотек.

spaCy:

spaCy — это библиотека программного обеспечения с открытым исходным кодом для продвинутого НЛП. Эта библиотека сейчас довольно популярна, и практикующие НЛП используют ее, чтобы выполнять свою работу наилучшим образом.

  import  spacy 
# загрузка англоязычной маленькой модели spacy
en = spacy.load ('en_core_web_sm')
sw_spacy = en. Defaults.stop_words
print (sw_spacy)

Вывод:

 {'те', 'на', 'собственные', 'ве', 'сами', 'вокруг', 'между', 'четыре ',' был ',' один ',' выключен ',' я ',' потом ',' другой ',' могу ',' в отношении ',' в дальнейшем ',' перед ',' тоже ',' использованный ', 'в котором', 'буду', 'делаю', 'все', 'вверх', 'дальше', 'никогда', 'либо', 'как', 'до', 'так или иначе', 'с', ' через ',' количество ',' сейчас ',' он ',' был ',' иметь ',' в ',' потому что ',' не ',' поэтому ',' они ',' нет ',' даже ',' кого ',' это ',' видеть ',' где-то ',' после этого ',' ничего ',' тогда как ',' много ',' всякий раз, когда ',' кажется ',' до ',' посредством чего ' , 'at', 'также', 'some', 'last', 'than', 'get', 'already', 'our', 'once', 'will', 'noone', "m", 'то', 'что', 'таким образом', 'нет', 'я', 'вне', 'следующий', 'что угодно', 'хотя', 'хотя', 'которое', 'будет', 'в нем ',' ни ',' каким-то образом ',' после чего ',' кроме ',' кто бы то ни было ',' мы ',' несколько ',' сделал ',' без ',' третий ',' что угодно ',' двенадцать ', 'против', 'пока', 'двадцать', 'если', 'однако', ' сама ',' когда ',' может ',' наш ',' шесть ',' сделано ',' кажется ',' еще ',' позвонить ',' возможно ',' имела ',' тем не менее ',' где ' , «иначе», «еще», «внутри», «его», «для», «вместе», «в другом месте», «повсюду», «из», «другие», «показать», «с», "где угодно", "так или иначе", "как", "есть", "то", "следовательно", "что-то", "настоящим", "нигде", "в последнее время", "сказать", "не делает", "ни один" , «девять», «после чего», «вниз», «снизу», «тем самым», «такой», «оба», «она», «стать», «целое», «кто», «себя», «каждый». ',' через ',' кроме ',' очень ',' несколько ',' среди ',' быть ',' быть ',' мой ',' дальше ',' n't ',' здесь ',' во время ',' почему ',' с ',' просто ', "s",' становится ',' ll ',' about ',' a ',' using ',' кажущийся ', "' d", " 'll', 're', 'due', 'где бы', 'заранее', 'пятьдесят', 'становление', 'might', 'среди', 'мой', 'пустой', 'оттуда', ' после этого ',' почти ',' минимум ',' кто-то ',' часто ',' от ',' держать ',' он 'или', 'м', 'сверху', 'она', 'никто ', 'когда-то', 'через', 's', 're', 'сто', 'только', 'via', 'name', 'восемь', 'три', 'назад', 'в', 'все', 'стал', 'двигаться', 'я', 'мы', 'раньше', 'так', 'я', 'откуда', 'под', 'всегда', 'сам', 'в', 'здесь ',' больше ',' после ',' себя ',' ты ',' выше ',' шестьдесят ',' они ',' твой ',' сделал ',' действительно ',' большинство ',' везде ', 'пятнадцать', 'но', 'должен', 'рядом', 'рядом', 'ее', 'сбоку', 'бывший', 'любой', 'полный', 'имеет', 'твой', 'чей ',' позади ',' пожалуйста ',' десять ',' казалось ',' иногда ',' должен ',' больше ',' взять ',' каждый ',' такой же ',' скорее ',' действительно ', 'last', 'and', 'ca', 'hereupon', 'part', 'per', 'eleven', 'ever', '' re ',' достаточно ', "n't",' again ' , '' d ',' нас ',' еще ',' более того ',' в основном ',' один ',' тем временем ',' куда ',' там ',' в сторону ',' 'm', "ve "," 'd', 'давать', 'делать', 'an', 'вполне', 'эти', 'все', 'по направлению', 'это', 'не может', 'после', 'дальше' , 'сделать', 'были', 'ли', 'хорошо', 'другой', 'ниже', 'первый', 'на', 'любой', 'ни один', 'многие', 'серьезные', ' различные ',' ре ',' два ',' меньше ',' ве '} 

Довольно длинный список.Давайте проверим, сколько стоп-слов есть в этой библиотеке.

  печать  ( len  (sw_spacy)) 

Вывод:

 326 

Вау, 326! Удалим стоп-слова из нашего предыдущего текста.

 слов = [слово  для  слова  в тексте .  split ()   если  слово.  lower ()   не в  sw_spacy] 
new_text = "". объединить (слова)
печать (новый_текст)
печать («Старая длина:», len (текст))
print («Новая длина:», len (новый_текст))

Вывод:

 встретил тихо.оставался тихим весь час путешествия по Стоуни-Брук по Нью-Йорку. 
Старая длина: 129
Новая длина: 72

Мы ясно видим, что удаление стоп-слов уменьшило длину предложения со 129 до 72, даже короче, чем NLTK, потому что библиотека spaCy имеет больше стоп-слов, чем NLTK. Однако результаты в этом случае очень похожи.

Gensim:

Gensim (Generate Similar) — это программная библиотека с открытым исходным кодом, в которой используется современное статистическое машинное обучение. Согласно Википедии, Gensim разработан для обработки больших текстовых коллекций с использованием потоковых данных и инкрементных онлайн-алгоритмов, что отличает его от большинства других программных пакетов машинного обучения, ориентированных только на обработку в памяти.

  import  gensim 
from gensim.parsing.preprocessing import remove_stopwords, STOPWORDS
print (STOPWORDS)

Вывод:

 frozenset ({'принадлежащие', 'на', 'сами', 'то есть', 'вокруг', 'между', 'четыре', 'был', 'одинокий', 'вне', 'я', 'потом', 'другой', 'могу', 'плакать ',' относительно ',' далее ',' спереди ',' тоже ',' использованный ',' при этом ',' делаю ',' все ',' вверх ',' никогда ',' на ',' как ', 'либо', 'до', 'так или иначе', 'с', 'через', 'количество', 'сейчас', 'он', 'не могу', 'был', 'против', 'иметь', 'в ',' потому что ',' inc ',' not ',' поэтому ',' они ',' даже ',' кого ',' это ',' видеть ',' где-то ',' интерес ',' в связи с этим ', «толстый», «ничего», «тогда как», «много», «всякий раз, когда», «найти», «кажется», «до», «посредством чего», «в», «ltd», «огонь», также ',' some ',' last ',' than ',' get ',' already ',' our ',' doesn ',' once ',' will ',' noone ',' that ',' что ', 'таким образом', 'нет', 'я', 'вне', 'следующий', 'что угодно', 'хотя', 'хотя', 'и т. д.', 'w hich ',' будет ',' там ',' ни ',' как-то ',' после чего ',' кроме ',' кто угодно ',' худой ',' мы ',' немногие ',' сделал ',' третий ' , 'без', 'двенадцать', 'что угодно', 'против', 'пока', 'двадцать', 'если', 'однако', 'нашла', 'сама', 'когда', 'может', ' шесть ',' наш ',' сделано ',' кажется ',' еще ',' позвонить ',' возможно ',' имел ',' тем не менее ',' заполнить ',' где ',' иначе ',' еще ' , 'внутри', 'его', 'для', 'вместе', 'в другом месте', 'повсюду', 'из', 'например', 'другие', 'показать', 'искренний', 'где угодно', ' в любом случае ',' как ',' есть ',' то ',' следовательно ',' что-то ',' настоящим ',' нигде ',' в последнее время ',' де ',' сказать ',' не делает ',' ни один ' , 'его', 'иди', 'сорок', 'положить', 'их', 'по', 'а именно', 'км', 'мог', 'пять', 'если', 'сам', ' есть ',' девять ',' после чего ',' вниз ',' снизу ',' тем самым ',' такой ',' оба ',' она ',' стать ',' целое ',' кто ',' сам ' , 'каждый', 'через', 'кроме', 'очень', 'несколько', 'среди', 'быть', 'быть', 'мой', 'дальше', 'здесь', 'во время', ' почему ',' с ',' просто ',' становится ',' примерно ',' а ',' со ',' используя ',' кажущийся ',' должный ',' где rever ',' до ',' деталь ',' пятьдесят ',' становление ',' мог бы ',' среди ',' мой ',' пустой ',' отсюда ',' после ',' почти ',' наименьший ' , 'кто-то', 'часто', 'от', 'держать', 'его' или ',' сверху ',' она ',' не ',' никто ',' когда-нибудь ',' через ',' сто »,« только »,« через »,« имя »,« восемь »,« три »,« назад »,« в »,« все »,« стало »,« двигаться »,« я »,« мы » , 'ранее', 'так', 'я', 'откуда', 'описывать', 'под', 'всегда', 'сам', 'больше', 'здесь', 'в', 'после', ' сами »,« вы »,« они »,« выше »,« шестьдесят »,« не имеет »,« ваш »,« сделал »,« везде »,« действительно »,« большинство »,« кг »,« пятнадцать » , 'но', 'должен', 'рядом', 'рядом', 'ее', 'компьютер', 'сбоку', 'бывший', 'полный', 'любой', 'имеет', 'твой', ' чьи ',' позади ',' пожалуйста ',' мельница ',' amoungst ',' десять ',' казалось ',' иногда ',' должен ',' больше ',' взять ',' каждый ',' не ' , 'то же', 'скорее', 'действительно', 'последний', 'и', 'часть', 'после этого', 'за', 'одиннадцать', 'когда-либо', 'достаточно', 'снова', ' мы ',' еще ',' кроме того ',' в основном ',' один ',' тем временем ',' куда ',' там ',' навстречу ',' дать ',' syste m ',' do ',' all ',' an ',' this ',' every ',' into ',' this ',' bill ',' cannot ',' un ',' afterwards ',' за пределами ' , 'сделать', 'были', 'ли', 'хорошо', 'другой', 'ниже', 'первый', 'на', 'любой', 'ни один', 'многие', 'различные', ' серьезно ',' re ',' two ',' less ',' couldnt '}) 

Снова довольно длинный список.Давайте проверим, сколько стоп-слов есть в этой библиотеке.

  печать  ( len  (STOPWORDS)) 

Вывод:

 337 

Мммм! Подобное считается spaCy. Удалим из текста стоп-слова.

 new_text =  remove_stopwords  (текст) 
print (new_text) print («Старая длина:», len (текст))
print («Новая длина:», len (new_text) ))

Мы видим, что удалить стоп-слова с помощью библиотеки Gensim довольно просто.

Вывод:

 Когда я встретил тишину. Она оставалась тихой весь час долгого путешествия по Стоуни-Брук по Нью-Йорку. 
Старая длина: 129
Новая длина: 83

Удаление стоп-слов сократило длину предложения со 129 до 83. Мы видим, что, хотя длина стоп-слов в spaCy и Gensim одинакова, полученный текст довольно другой.

Scikit-Learn:

Scikit-Learn не нуждается в представлении. Это бесплатная библиотека машинного обучения для Python.Вероятно, это самая мощная библиотека для машинного обучения.

  из  sklearn.feature_extraction.text  import  ENGLISH_STOP_WORDS 
print (ENGLISH_STOP_WORDS)

Вывод:

 frozenset ({'те', 'на', 'свой', т.е. 'сами', 'вокруг', 'между', 'четыре', 'был', 'одинокий', 'выключен', 'я', 'потом', 'другой', 'могу', 'плакать', 'далее', 'перед ',' тоже ',' где ',' все ',' вверх ',' на ',' никогда ',' либо ',' как ',' до ',' так или иначе ',' с ',' до ', 'amount', 'now', 'he', 'cant', 'was', 'con', 'have', 'into', 'потому что', 'inc', 'not', 'поэтому', 'они ',' даже ',' кого ',' это ',' видеть ',' где-то ',' интерес ',' после этого ',' ничего ',' толстый ',' тогда как ',' много ',' всякий раз, когда ', 'найти', 'казаться', 'до', 'где', 'в', 'ltd', 'огонь', 'также', 'некоторые', 'последний', 'чем', 'получить', 'уже ',' наш ',' однажды ',' будет ',' никто ',' тот ',' что ',' таким образом ',' нет ',' я ',' вне ',' следующий ',' что угодно ', 'хотя', 'хотя', 'и т. д.', 'который', 'будет', 'там', 'ни', 'как-то', 'после чего', 'кроме', 'кто ',' тонкий ',' мы ',' немногие ',' третьи ',' без ',' ничего ',' двенадцать ',' против ',' пока ',' двадцать ',' если ',' однако ', 'нашла', 'сама', 'когда', 'может', 'наш', 'шесть', 'сделано', 'кажется', 'еще', 'позвонить', 'возможно', 'имела', 'тем не менее ',' заполнить ',' где ',' иначе ',' еще ',' внутри ',' его ',' для ',' вместе ',' в другом месте ',' повсюду ',' из ',' например ', «другие», «показать», «искренний», «где угодно», «так или иначе», «как», «есть», «то», «отсюда», «что-то», «настоящим», «нигде», «де» ',' в последнее время ',' ни ',' его ',' иди ',' сорок ',' положил ',' их ',' по ',' а именно ',' мог ',' пять ',' сам ', 'есть', 'девять', 'после чего', 'вниз', 'снизу', 'тем самым', 'такой', 'оба', 'она', 'стать', 'целое', 'кто', 'себя ',' каждый ',' через ',' кроме ',' очень ',' несколько ',' среди ',' быть ',' быть ',' мой ',' дальше ',' здесь ',' во время ', 'почему', 'с', 'становится', 'примерно', 'a', 'co', 'кажущийся', 'причитающийся', 'где', 'заранее', 'деталь', 'пятьдесят', 'становление ',' мог бы ',' среди ',' мой ',' пустой ',' отсюда ',' после ',' почти ',' минимум ',' something ',' часто ',' from ',' keep ',' him ',' or ',' top ',' her ',' none ',' sometime ',' через ',' сто ',' только ' , 'via', 'name', 'восемь', 'three', 'back', 'to', 'all', 'стал', 'move', 'me', 'we', 'ранее', ' так ',' я ',' откуда ',' описывать ',' под ',' всегда ',' сам ',' в ',' здесь ',' больше ',' после ',' себя ',' ты ' , «выше», «шестьдесят», «они», «не имеет», «ваш», «сделал», «действительно», «большинство», «везде», «пятнадцать», «но», «должен», « вдоль ',' рядом ',' ее ',' сбоку ',' бывший ',' любой ',' полный ',' имеет ',' твой ',' чей ',' позади ',' пожалуйста ',' среди ' , 'мельница', 'десять', 'казалось', 'иногда', 'должен', 'больше', 'брать', 'каждый', 'такой же', 'скорее', 'последний', 'и', ' далее ',' часть ',' за ',' одиннадцать ',' когда-либо ',' достаточно ',' снова ',' нас ',' еще ',' более того ',' в основном ',' один ',' тем временем ' , «куда», «туда», «в сторону», «давать», «система», «делать», «ан», «эти», «все», «навстречу», «это», «счет», « не может ',' un ',' после ',' за ',' были ',' ли ',' хорошо ',' другой ',' ниже ',' первый ',' на ',' любой ', «нет», «много», «серьезно», «ре», «два», «не могу», «меньше»}) 

Снова довольно длинный список.Давайте проверим, сколько стоп-слов есть в этой библиотеке.

  print  ( len  (ENGLISH_STOP_WORDS)) 

Вывод:

 318 

Давайте удалим стоп-слова из нашего текста.

 слов = [слово  для  слова  в тексте .  split ()   если  слово.  ниже ()   не в  ENGLISH_STOP_WORDS] 
new_text = "". объединить (слова)
печать (новый_текст)
печать («Старая длина:», len (текст))
print («Новая длина:», len (новый_текст))

Вывод:

 встретил тихо.молчал весь час долгого путешествия по Стоуни-Брук по Нью-Йорку. 
Старая длина: 129
Новая длина: 72

Удаление стоп-слов сократило длину предложения со 129 до 72. Мы видим, что и Scikit-learn, и spaCy дали одинаковые результаты.

Могу ли я добавить свои собственные стоп-слова в список? ✍️

Да, мы также можем добавить пользовательские стоп-слова в список стоп-слов, доступных в этих библиотеках, для нашей цели.

Вот код для добавления некоторых пользовательских стоп-слов в список стоп-слов NLTK:

 sw_nltk. расширить  (['первый', 'второй', 'третий', 'я']) 
печать ( len (sw_nltk))

Вывод:

 183 

Мы видим, что длина Стоп-слова NLTK теперь 183 вместо 179. И теперь мы можем использовать тот же код для удаления стоп-слов из нашего текста.

Могу ли я удалить стоп-слова из готового списка? 👋

Да, при желании мы также можем удалить стоп-слова из списка, доступного в этих библиотеках.

Вот код, использующий библиотеку NLTK:

 sw_nltk. удалить  («не») 

Стоп-слово «не» теперь удалено из списка стоп-слов.

В зависимости от используемой библиотеки вы можете выполнять соответствующие операции для добавления или удаления стоп-слов из предварительно созданного списка. Я указываю на это, потому что NLTK возвращает список стоп-слов, в то время как другие библиотеки возвращают набор стоп-слов.

Если мы не хотим использовать какие-либо из этих библиотек, мы также можем создать наш собственный список стоп-слов и использовать его в нашей задаче. Обычно это делается, когда у нас есть опыт в своей области и когда мы знаем, каких слов следует избегать при выполнении нашей задачи.

Посмотрите на приведенный ниже код, чтобы понять, насколько это просто.

 # создать собственный список стоп-слов 
my_stop_words = ['her', 'me', 'i', 'she', 'it'] words = [word для word в text .split () если word .lower () отсутствует в my_stop_words]
new_text = "". объединить (слова)
печать (новый_текст)
печать («Старая длина:», len (текст))
print («Новая длина:», len (новый_текст))

Вывод:

 При первой встрече было очень тихо.оставался тихим в течение всего двухчасового путешествия от Стоуни-Брук до Нью-Йорка. 
Старая длина: 129
Новая длина: 115

Аналогичным образом вы можете создать свой список стоп-слов в соответствии с вашей задачей и использовать его. 🤟

В этой статье мы наблюдали, что разные библиотеки имеют разный набор стоп-слов, и мы можем четко сказать, что стоп-слова — это наиболее часто используемые слова в любом языке.

Хотя вы можете использовать любую из этих библиотек для удаления стоп-слов из текста, тем не менее, настоятельно рекомендуется использовать одну и ту же библиотеку для всей задачи предварительной обработки текста.

Удаление стоп-слов с помощью NLTK в Python

Процесс преобразования данных во что-то понятное для компьютера называется предварительной обработкой . Одна из основных форм предварительной обработки — отфильтровывать бесполезные данные. При обработке естественного языка бесполезные слова (данные) называются стоп-словами.

Что такое стоп-слова?

Вниманию читателя! Не прекращайте учиться сейчас. Изучите все важные концепции машинного обучения с базовым курсом по машинному обучению по доступной для студентов цене и подготовьтесь к работе в отрасли.

Стоп-слова: Стоп-слово — это часто используемое слово (например, «the», «a», «an», «in»), которое поисковая система запрограммирована игнорировать при индексировании записей для поиска. и при их получении в результате поискового запроса.
Мы бы не хотели, чтобы эти слова занимали место в нашей базе данных или драгоценное время обработки. Для этого мы можем легко удалить их, сохранив список слов, которые вы считаете стоп-словами. NLTK (Natural Language Toolkit) в python имеет список стоп-слов, хранящихся на 16 разных языках.Вы можете найти их в каталоге nltk_data. home / pratima / nltk_data / corpora / stopwords — это адрес каталога. (Не забудьте изменить имя домашнего каталога)

Чтобы проверить список стоп-слов, вы можете ввести следующие команды в оболочке python.

 импорт НЛТК
из nltk.corpus импортировать стоп-слова
print (stopwords.words ('english')) 

{‘мы’, ‘ее’, ‘между’, ‘себя’, ‘но’, ‘снова’, ‘там’, ‘примерно’, ‘однажды’, ‘во время’, ‘вне’, ‘очень’, ‘иметь’, ‘с’, ‘они’, ‘владеть’, ‘ан’, ‘быть’, ‘некоторые’, ‘для’, ‘делать’, ‘это ‘,’ ваш ‘,’ такой ‘,’ в ‘,’ из ‘,’ большинство ‘,’ сам ‘,’ другой ‘,’ выкл ‘,’ есть ‘,’ s ‘,’ am ‘,’ or ‘, «кто», «как», «от», «он», «каждый», «тот», «себя», «до», «ниже», «есть», «мы», «эти», «ваш» , ‘наш’, ‘их’, ‘пока’, ‘выше’, ‘оба’, ‘вверх’, ‘к’, ‘наш’, ‘имел’, ‘она’, ‘все’, ‘нет’, ‘когда ‘,’ в ‘,’ любой ‘,’ до ‘,’ они ‘,’ такой же ‘,’ и ‘,’ был ‘,’ иметь ‘,’ в ‘,’ будет ‘,’ на ‘,’ делает ‘, ‘сами’, ‘то’, ‘то’, ‘потому что’, ‘что’, ‘больше’, ‘почему’, ‘так’, ‘могу’, ‘сделал’, ‘не’, ‘сейчас’, ‘под ‘,’ он ‘,’ ты ‘,’ сама ‘,’ имеет ‘,’ просто ‘,’ где ‘,’ тоже ‘,’ только ‘,’ я ‘,’ который ‘,’ те ‘,’ я ‘, ‘после’, ‘несколько’, ‘кого’, ‘т’, ‘быть’, ‘если’, ‘их’, ‘мой’, ‘против’, ‘а’, ‘по’, ‘делаешь g »,« это »,« как »,« дальше »,« было »,« здесь »,« чем »}
Примечание: Вы даже можете изменить список, добавив слова по вашему выбору на английском языке.текст. файл в каталоге игнорируемых слов.

Удаление стоп-слов с помощью NLTK

Следующая программа удаляет стоп-слова из фрагмента текста:

Python3

из nltk.corpus

0008 import stop из nltk.tokenize import word_tokenize

example_sent =

stop_words set = stop_wordsслов ( 'английский' ))

word_tokens = word_tokenize (example_sent)

filter_sentence = word_tokens if not w.lower () in stop_words]

filter_sentence = 0003 0003

0003 word_tokens:

if w not in stop_words:

filter_sentence.append (w)

print (word_tokens)

print (filter_sentence)

Вывод:

 [', a', 'This', 'This', 'This', 'образец', 'предложение', ',', 'показ',
'выкл', 'в', 'стоп', 'слова', 'фильтрация', '.']
['Это', 'образец', 'предложение', ',', 'показ', 'стоп',
'слова', 'фильтрация', '.'] 

Выполнение операций со стоп-словами в файле

В приведенном ниже коде текст.txt - это исходный входной файл, в котором должны быть удалены стоп-слова. filtertext.txt - это выходной файл. Это можно сделать с помощью следующего кода:

Python3

import io

from nltk.corpus import stopwords 0003 import word_tokenize

stop_words = set (stopwords.слов ( 'english' ))

file1 = open ( "text.txt" )

line file ()

слов = line.split ()

для r в слов:

если не r stop_words:

appendFile = открыть ( 'отфильтрованный текст.txt ' , ' a ' )

appendFile.write ( "" + r)

89 appendFile

Таким образом мы делаем наш обрабатываемый контент более эффективным, удаляя слова, которые не влияют на какие-либо будущие операции.
Эта статья предоставлена ​​ Pratima Upadhyay . Если вам нравится GeeksforGeeks и вы хотите внести свой вклад, вы также можете написать статью, используя запись.geeksforgeeks.org или отправьте свою статью по адресу [email protected]. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.
Пожалуйста, напишите комментарий, если вы обнаружите что-то неправильное, или если вы хотите поделиться дополнительной информацией по теме, обсужденной выше.

Руководство по стоп-словам (со списком)

Есть определенные слова, которые поисковые системы могут игнорировать как в поисковых запросах, так и в результатах поиска.

Слова вроде - , - или - .

Они известны как стоп-слова и обычно представляют собой артикли, предлоги, союзы или местоимения. Они не меняют смысла запроса и используются при написании контента для правильной структурирования предложений.

Вам не придется далеко ходить, чтобы найти заголовки страниц, теги заголовков или даже основной текст, где отсутствуют стоп-слова.

Хотите увидеть пример? Взгляните на эти два поисковых запроса:

  • Рестораны в Бруклине

  • Рестораны Бруклин

В данном случае "in" - это стоп-слово.Но удалите его, и контекстный смысл запроса не изменится.

Однако, если вы напишете в своем контенте «Restaurants Brooklyn», без них он будет плохо читаться. Вы не стали бы писать содержание в полных предложениях без ключевых слов, которые связывают все воедино.

Оптимизаторы поисковых систем не должны тратить свое время на то, чтобы слишком беспокоиться о стоп-словах или пытаться выяснить, следует ли им удалять их из любого места на своем веб-сайте.

Что такое стоп-слова в SEO?

Как уже говорилось, стоп-слова - это общие слова, такие как статьи, предлоги, союзы и местоимения, которые поисковые системы могут игнорировать.Такие слова, как the, in или a.

Концепция стоп-слов была впервые предложена Гансом Петером Луном, одним из пионеров в области поиска информации.

Но насколько вам нужно беспокоиться о стоп-словах, как оптимизатору поисковых систем? И как тот факт, что поисковые системы игнорируют это, должен изменить ваш подход к созданию и оптимизации контента?

Игнорирует ли Google стоп-слова?

Стоп-слова, используемые поисковыми системами для ускорения сканирования и индексации с целью экономии места для хранения.Они игнорировались как в поисковых запросах, так и в результатах поиска.

Эти слова не имеют ничего общего с содержанием на уровне контекста, и их удаление не меняет общего значения текста.

Однако то, что не означает , означает, что вам следует удалить стоп-слова из своего контента. Ниже мы рассмотрим, как следует и не следует использовать стоп-слова при оптимизации сайта.

Вот что Билл Славски говорит о стоп-словах и о том, как Google (может) к ним относиться:

Возможно, Google продолжает использовать стоп-слова, но они относятся к ним иначе, чем в прошлом, признавая, что некоторые из них имеют смысл .Впервые я написал о них в 2008 году: https://t.co/ySZayYZCkm
Вероятно, неплохо было бы объяснить это или удалить такие списки.

- Билл Славски ⚓ (@bill_slawski) 6 февраля 2021 г.

Стоп-слова иногда могут иметь большое влияние на поисковую выдачу. Дон Андерсон указывает на отличный пример того, как одно слово, в данном случае слово «the», может изменить всю поисковую выдачу:

Подозреваю, что многое из этого изменилось еще больше с появлением контекстного естественного языка ML. Многие из этих «стоп-слов» - это клей, скрепляющий контекст.Кроме того, «Кто» - это не то же самое, что «кто», так что, несомненно, все неиспользованные стоп-слова, вероятно, устарели

- Дон Андерсон (@dawnieando) 6 февраля 2021 года

Рассвет также предоставил дополнительные доказательства того, что поиск Двигатели не используют стоп-листы, ссылаясь на это исследование из Стэндфорда и цитируя:

Общая тенденция в IR-системах с течением времени была от стандартного использования довольно больших стоп-листов (200-300 терминов) до очень маленьких стоп-листов (7-12 термины) в какой бы то ни было стоп-лист.Системы веб-поиска обычно не используют стоп-листы.

Далее она привела и другие примеры:

Еще из этой статьи: «Фраза-запрос« Президент Соединенных Штатов », содержащая два стоп-слова, является более точной, чем« Президент »И« Соединенные Штаты. ''. Значение полетов в Лондон, вероятно, будет потеряно, если слово «to» будет исключено ».

- Дон Андерсон (@dawnieando) 8 февраля 2021 г.

Вообще говоря, поисковые системы используют стоп-слова, чтобы лучше понять контекст поиска, поскольку они могут сильно повлиять на то, что представляется пользователям.

Использование стоп-слов в вашем контенте

Теперь, когда мы обсудили, что такое стоп-слова в SEO, давайте посмотрим, как их эффективно использовать в различных аспектах вашего URL-адреса, заголовков страниц и контента.

Следует ли использовать стоп-слова в URL-адресах страниц?

Стоп-слова в URL-адресах уже много лет обсуждаются в сообществе SEO, но не стоит слишком об этом беспокоиться.

Если ваш сайт работает на WordPress и вы используете плагин Yoast SEO, вы, вероятно, помните, что видели рекомендации по удалению стоп-слов из URL вашей страницы.

CMS или веб-мастер нередко используют заголовок или заголовок страницы для создания слага страницы. Это может привести к получению длинных URL-адресов.

Вы можете ознакомиться с нашим руководством по созданию оптимизированных для SEO URL. Мы обсуждаем сокращение или оптимизацию, где это возможно, чтобы URL-адреса были легкими для чтения и содержательными.

Однако, если вам необходимо сократить длинный URL-адрес, вы можете рассмотреть возможность удаления стоп-слов, если они не влияют на контекст. По мнению Google, они рекомендуют сохранять простую структуру URL-адресов.

Следует ли использовать стоп-слова в заголовках и заголовках страниц?

В поисковой выдаче много заголовков и тегов заголовков, в которых отсутствуют стоп-слова. Однако, на наш взгляд, вы должны оставить их на месте.

Теги заголовков используются не только поисковыми системами. Они отображаются в поисковой выдаче:

Представьте, что в приведенном выше примере есть тег заголовка без стоп-слов. Он читался как «Лучшие шоу фильмов, транслируемых HBO Max - Разнообразие». Удаление стоп-слов делает его неудобным для чтения, и становится очевидным, что часть заголовка отсутствует.

Когда элемент виден пользователям и используется для принятия решения, нажимать ли (или оставаться на ней) вашу страницу, вы всегда должны отдавать приоритет пользовательскому опыту.

Следует ли использовать стоп-слова в своем контенте?

Это простой:

Вы никогда не должны удалять стоп-слова из содержимого вашего тела ; это сделало бы его совершенно нечитаемым. Вы должны ставить своих пользователей на первое место и никогда не жертвовать их опытом ради того, как, по вашему мнению, поисковая система может просматривать ваш контент.

Стоп-слова важны для взаимодействия с пользователем

Реальность такова, что большинство маркетологов не должны беспокоиться о стоп-словах. Понимая, что они из себя представляют и как их обрабатывают поисковые системы, вы лучше подготовитесь к тому, чтобы принимать правильные решения в отношении их использования.

Игнорируйте советы по удалению их из заголовков и заголовков, так как это может повредить пользовательскому опыту, но рассмотрите возможность исключения их из URL-адресов страниц, если вам нужно их сократить и это не меняет контекста.

Всегда ставьте своих пользователей на первое место, и вы обычно обнаружите, что это также лучший вариант для поисковых систем.

Полный список из 175+ стоп-слов для зоны доступности

Не существует единого универсального списка стоп-слов, но мы составили исчерпывающий список из более чем 175.

Используйте его в качестве ориентира при оптимизации вашего сайта и понимании как поисковые системы могут обрабатывать эти слова.

7 еще
да
да
вы
вы
вы
ваше
ваше
сами
сами

A

a
около
выше
на самом деле
после
снова
против
все
почти
также
хотя
всегда
am
an

всегда

B

быть
стало
стать
, потому что
было
до
было
ниже
между
и
, но
по

мог

D

сделал
сделать
сделал
делать
вниз
в течение

E

каждый
либо

несколько
для
от
далее

H

было
было
было
было
он
он бы
он
отсюда
он
ее
здесь
вот
ее
сам
сам
его
как
как

я

я
я
я
я
я
если
в
это
это
это
сам

J

просто

L

давайте

M может

23

7

7

7

7 большинство
должно
мой
сам

N

ни
, ни
не

9 0684

O

из
ой
на
один раз
только
хорошо
или
другое
нужно
наши
наши
сами
из
более

00

905

такой же
она
она бы
она
она
должна
так
какая-то
такая

T

чем
это
это
их

их
они
сами
потом
там
там
эти
они
они бы
они
они
они есть
эти
те
через
до
тоже

U

под
до
вверх

V

очень

W

было
мы
у нас было
мы
мы
у нас
было
что
что
когда
всякий раз
когда
где
тогда как
где
где
ли
который
а
кто
кто угодно
кто
чей
кто
почему
почему
будет
с
в пределах
будет

Y

Начните бесплатную пробную версию с Semrush

Найдите ключевые слова и многое другое!

Стоп-слов Google: стоит ли их удалять для SEO?

В выпуске серии Mediavine SEO на этой неделе мы просим вас на несколько минут прекратить то, что вы делаете, и подумать о нескольких сотнях слов о стоп-словах.

Ужасно несмешные вступления, что это вообще значит?

Что такое стоп-слова?

В компьютерном алгоритме стоп-слова - это слова, которые вы удаляете перед отправкой текста на обработку. Общие слова, такие как: a , an , the, what .

Идея концепции стоп-слов заключается в том, что это не ключевые слова и не предоставляют полезную информацию или контекст для поисковых систем.

Как и в повседневной речи, эти стоп-слова популярны в Интернете - они составляют примерно 25% содержимого Интернета.

Отфильтровав их, Google может сократить размер Интернета на четверть. Как они это делают и что это меняет?

Как Google фильтрует стоп-слова

Если вы хотите увидеть стоп-слова в действии, не ищите ничего, кроме строки поиска Google.

Примечание. Как мы обсуждали в нашем сообщении об исследовании ключевых слов, не забудьте перейти в инкогнито перед просмотром, чтобы увидеть результаты, как это делает обычная публика.

Воспользуйтесь моим популярным, восхитительным примером SEO и Google рецептом чизкейка.Но вместо того, чтобы просто набирать «рецепт чизкейка», добавьте впереди букву «а».

Эта буква «а» не меняет смысла или намерений пользователя при поиске, поскольку читатель в любом случае ищет особый рецепт чизкейка.

Вы увидите почти идентичные результаты поиска, потому что, по всей вероятности, Google отфильтровал «а» и вернул те же результаты.

Все это имеет смысл, но что касается ведения блогов и того, что такое SEO с вашей точки зрения, стоит ли вам беспокоиться о стоп-словах?

стоп-слов и SEO

Если вы связаны с сообществом SEO или знакомы с такими инструментами SEO, как Yoast, возможно, вы уже читали о стоп-словах раньше.

Например, Yoast использовался для автоматического удаления стоп-слов из ярлыков отдельных сообщений или постоянных ссылок на определенных страницах.

Общий совет сообщества SEO - удалить стоп-слова в важных областях страницы с ограниченным пространством.

Например, в таких областях, как заголовок страницы, мета-описание и URL-адрес, вы ограничены в том, сколько Google будет проиндексировать для каждой из них.

Возьмем, к примеру, заголовок страницы. Google обычно отображает только 50-60 символов, поэтому рекомендуется, чтобы ваши ключевые слова появлялись в первых 50-60 символах или, что еще лучше, чтобы ограничить полное название такой длиной.

Вы можете сказать, куда мы идем с этим; 50-60 символов - это немного, и многие заголовки содержат стоп-слова.

Удаление стоп-слов освобождает больше места для ключевых слов и / или дает возможность улучшить плотность ключевых слов на вашей странице, заметность и соответствие вашей ключевой фразе.

Это также помогает улучшить вашу близость ключевых слов, что дает вам еще больший выигрыш.

(Подробнее об этих причудливых терминах SEO позже.)

Та же самая логика применяется к метаописаниям и URL-адресам, где Google индексирует только определенный объем текста.Вы разумно используете свой текст?

Вы хотите, чтобы ключевые слова индексации Google в этой ограниченной, ценной недвижимости или стоп-слова все равно будут отфильтрованы?

Список можно продолжить. Отдельные заголовки, подзаголовки и даже сам текст вашей статьи - помните, мы говорим о 25% всех слов - можно было бы изучить таким образом, если вы действительно погрузитесь в это.

Вопрос в том, стоит ли оно того, и мой ответ аналогичен множеству советов, которые вы прочитаете в блоге Mediavine:

Не подчеркивайте .

Следует ли исключать стоп-слова из заголовков страниц, метаописаний, URL-адресов и сообщений?

Когда я говорю «не нервничаю», я не имею в виду, что все равно. Просто в основном.

Не зацикливайтесь на стоп-словах за счет более важных факторов SEO, таких как внутренние ссылки и заголовки страниц (подробнее об этом чуть позже), не говоря уже о том, что вы тратите время на создание контента.

Тем не менее, есть некоторая законность в том, чтобы держать вещи короткими и чистыми.

Вы заметите, что мы делаем URL-адреса короткими (см. Эту самую страницу), удаляем даже стоп-слова и большинство других слов.URL-адреса не обязательно должны быть грамматически правильными, они должны быть настолько эффективными и краткими, насколько вы можете их составить.

Я дам стоп-слова полиции. Однако эта философия неприменима к вашему сообщению и заголовку, который всегда должен быть грамматически правильным и понятным как для Google, так и для ваших читателей.

Не жертвуйте удобочитаемостью ради теоретического SEO

Я бы сказал, что для любого сайта удобочитаемость и хорошо написанный контент важнее, чем советы экспертов по SEO.

Например, когда дело доходит до заголовка страницы, удаление стоп-слов, скорее всего, доставит больше хлопот, чем пользы.

Заголовок вашей страницы - это САМЫЙ важный аспект SEO на странице, который у вас есть, как с точки зрения поискового рейтинга, так и с точки зрения первого впечатления потенциальных пользователей о вашем сайте и его содержании на странице результатов.

Подумайте об этом так: пользователи не будут хорошо реагировать на результаты поиска, содержащие бессвязные английские фрагменты, которые вы собрали вместе, чтобы удалить стоп-слова.Не могли бы вы?

Алгоритмы Google мощны, как и ваша человеческая аудитория, которая будет определять ваш рейтинг кликов и, следовательно, ваш трафик на основе этого важного первого впечатления.

Кроме того, переборщение с удалением стоп-слов потенциально может повредить SEO само по себе.

Google теперь понимает стоп-слова в контексте!

Постойте, а как насчет моего примера вверху поста ?!

Технологии Google постоянно совершенствуются, и одним из многих примеров этого является «Обработка естественного языка»,

Короче говоря, компьютеры теперь могут читать и анализировать текст, чтобы понимать язык, а не просто разбирать ключевые слова.

Когда Google анонсировал свое недавнее обновление, BERT, он сделал это с подробным анализом запроса с использованием стоп-слов.

Пример «Путешественнику из Бразилии в США в 2019 году нужна виза» указывает на то, что «в» было ключевым компонентом этой фразы.

Им нужно было знать направление, и они его получили.

«Кому» - это классическое стоп-слово, но если вы удалите его из заголовка страницы и публикации при использовании ключевого слова focus, вы законно снизите свои шансы на ранжирование этого контента.

Вот почему мы рекомендуем, чтобы если стоп-слова были полезны вашему читателю, Google, вероятно, это выяснит.

С точки зрения создателя контента, предоставьте читателю - и роботам - решать, удалять их или нет.

Общие стоп-слова

Мы составили инфографику общих стоп-слов. Это ни в коем случае не исчерпывающий список, и, опять же, не о чем беспокоиться.

Источник: Список стоп-слов от ShoutMeLoud

Не пропустите нашу следующую публикацию из этой серии о известности ключевых слов или наш большой список ресурсов SEO, если хотите узнать больше.

Интернет-руководство по поисковой оптимизации: стоп-слова Google

Большинство поисковых систем не рассматривают очень распространенные слова, чтобы ускорить поиск.
или для экономии места на диске. Эти отфильтрованные слова известны как «стоп-слов» .

Ниже приведен исчерпывающий список слов, игнорируемых поисковыми системами:


в состоянии
около
выше
за рубежом
в соответствии с
соответственно
в
на самом деле
прил
после
впоследствии
снова
против
назад
вперед
не
все
разрешить
позволяет
почти
один
рядом
уже
также
хотя
всегда
am
среди
среди
среди
среди

и
еще
любой
любой
так или иначе
любой
все равно
в любом случае
в любом случае
где угодно
оценят

подходят
не
около
как
a
в сторону
спросить
спросить
связанный
в
доступен
далеко
ужасно
b
назад
назад
назад
быть
стало
, потому что
стало
стало
стало
было
раньше
заранее
начало
позади
было
верю
ниже
рядом с
помимо
лучше
лучше
между
за
оба
краткое
но
на
c
пришел
может
не может
косяк
не могу
заголовок
причина
вызывает
определенные
обязательно
изменения
четко 'mon
co
co.
com
приходит
приходит
относительно
следовательно
рассматривает
учитывая
содержит
содержит
содержит
соответствующий
может
не может
курс
c's
в настоящее время
d
осмелился
не смел
определенно
описал
несмотря на

не
другой
непосредственно
делать
делает
не
делает
сделано
не
вниз
вниз
в течение
e
каждый
edu
например
восемь
восемьдесят
либо
в другом месте
в другом месте
конец
окончание
достаточно
полностью
особенно
и т.д.
и т. Д.
даже
когда-либо
когда-либо
каждые
все
все
все
везде
ex
точно
пример
кроме
f
довольно
далеко

дальше меньше

первые
пять
следовали
следующие
следовали
за
вперед r
бывший
ранее
вперед
вперед
найдено
четыре
из
далее
кроме того
g
получить
получает
получает
дано
дает
идет
идет
идет
прошло
получил
получил
h
привет
не было
половина
случается
вряд ли
есть
нет
есть
нет
есть
он
он получил
он
привет
поможет

отсюда
ее
здесь
в дальнейшем
настоящим
здесь
здесь
далее
ее
сама
он
привет
он
сам
его
здесь
надеюсь
как
как бы то ни было
, но
сотня
если
игнорируется
, я
я
немедленно
в
, поскольку
inc
inc.
действительно
указывает
указано
указывает
внутренний
внутри
постольку, поскольку
вместо
внутрь
внутрь
это
не
это
это было
это будет
это
это
сам
у меня
j
просто
k
сохранить
сохранить
сохранить
знать
известно
знает
l
последний
в последнее время
позже
последний
в последнее время
минимум
меньше
чтобы
пусть
давайте
как
понравился
вероятно
мало выглядит
так же

выглядит
низко
ниже
ltd
m
сделано
в основном
сделано
делает
много
может
может быть
может не
мне
среднее
тем временем
тем временем
просто
может
может не
мое
минус
минус

больше
кроме того
большинство
в основном
mr
mrs
много
должно
нельзя
мой
я
n
имя
а именно
nd
около 901 27 почти
необходимо
нужно
не нужно
нужно
ни
никогда
никогда не
никогда не
тем не менее
новый
следующий
девять
девяносто
нет
никто
не
нет
тем не менее
никто

ни один

не
ничего
несмотря на
роман
сейчас
никуда
o
очевидно
из
от
часто
о
хорошо
хорошо
старый
на
один раз
один

один
только
другой напротив

другие
в противном случае
должны
не должны
наши
наши
сами
вне
за пределами
более
в целом
собственные
p
в частности
особенно
за
на
возможно
размещены
пожалуйста
плюс
предположительно

при условии, что
предоставляет
q
que
довольно
qv
r
скорее
rd
re
действительно
разумно
недавний
недавно
относительно
независимо от
относительно
относительно
соответственно
справа
круглый
s
сказал
тот же
увидел
скажем
сказал
сказал
второй
второй

видеть
видеть
кажется
казаться
кажется
кажется
видно
себя
себя
разумно
отправлено
серьезно
серьезно
семь
несколько
должно
не
она
она бы
она
она
должна
не должен
с
шесть
так
какой-то
кто-то
когда-нибудь
каким-то образом
кто-то
что-то
когда-нибудь
иногда
немного
где-то
скоро
извините
указано
укажите
указав
еще
sub
такой
sup
t
взять
взять
взять
сказать
имеет тенденцию
th
чем
спасибо
спасибо
спасибо
что
это
вот
это
, у которых есть

их
их
они
сами
затем
потом там
, затем
, таким образом,
, было
, следовательно,
в нем
, там
, там
, там
re's
после этого
там
эти
они
они
они
они
они
вещи
вещи
думаю
третий
тридцать
этот
тщательно
полностью
те
хотя
три
через
на протяжении
через
, таким образом, от
до
до
вместе
тоже
взял
к
к
пробовал
попыток
поистине
попытался
попытался
t's
дважды
два
u
к сожалению
под
и к сожалению под
если
в отличие от
маловероятно
до
до
вверх
на
вверх
сша
используется
используется
полезно
использует
с использованием
обычно
v
значение
различное
по сравнению с
очень
через
viz12
против
хочет
хочет
был
не был
путь
мы
мы бы
добро пожаловать
хорошо
мы
пошли
были
мы
не были 901 27 у нас
что
что угодно
что будет
что
что будет
когда
откуда
когда угодно
где
где после
тогда
где
где
где
где
где
будь
какой
какой
какой
пока

куда
кто
кто бы
кто бы ни
весь
кто бы
кто
кто бы ни
кто
чей
почему
будет
желает
желает
с
внутри
без
чудо
не будет

не будет
x
y
да
еще
вы
вы
вы
ваш
вы
ваш
сами
сами
вы
z
ноль

75 стоп-слов, часто встречающихся в SEO, и когда их следует использовать

От заголовков блогов до заголовков URL-адресов, вы можете не осознавать, как часто вы используете стоп-слова для SEO.Но, честно говоря, если Google не обращает на них особого внимания, зачем вам это делать?

Исследования показывают, что 25% сообщений в блогах состоят из стоп-слов. Однако эти слова практически не имеют отношения к теме сообщения. Эти слова помогают составлять предложения и объединять идеи, и они не оказывают большого влияния на результаты поиска Google.

Но чрезмерное использование стоп-слов может повлиять на ваш бренд в долгосрочной перспективе. Они затрудняют обработку контента поисковыми системами, что в конечном итоге может негативно повлиять на то, как они индексируют ваши страницы.

В этом посте мы подробно расскажем, что такое стоп-слова для SEO, как они могут повредить или помочь вашему присутствию в Интернете и какие слова считаются стоп-словами Google и другими поисковыми системами.

Что такое стоп-слова в SEO?

Мы постоянно используем стоп-слова, вне зависимости от того, в сети ли мы или в повседневной жизни. Это статьи, предлоги и фразы, которые объединяют ключевые слова и помогают нам формировать полные, связные предложения.

Общие слова, такие как its, an, the, for и that, считаются стоп-словами.Хотя они важны для устного общения, стоп-слова обычно не имеют большого значения для SEO и часто игнорируются поисковыми системами.

Давайте рассмотрим некоторые из наиболее распространенных стоп-слов в разделе ниже.

Общие стоп-слова SEO

Самыми распространенными стоп-словами SEO являются местоимения, статьи, предлоги и союзы. Сюда входят такие слова, как a, an, the и, it, for, or, но, in, my, your, our и their.

Когда люди ищут что-то в Интернете, поисковые системы, такие как Google, пропускают эти слова в своих результатах, потому что они не связаны с ключевыми словами в поиске.Таким образом, вместо того, чтобы искать контент, связанный с этими словами, Google полностью удаляет их и расставляет приоритеты по ключевым словам.

Итак, в следующий раз, когда вы попытаетесь подсчитать количество слов при написании сообщения в блоге, попробуйте заполнить это открытое пространство ключевыми словами, а не заполнителем, который не улучшит ваше SEO.

Хотя было бы здорово загружать ваш контент только значимыми ключевыми словами, в действительности стоп-слова необходимы для каждого типа копии. В конце концов, даже если вы занимаетесь высоким рейтингом в Google, это не будет иметь большого значения, если ваш контент непонятен или не находит отклика у вашей аудитории.

Полезны ли стоп-слова для SEO?

Есть время и место для стоп-слов SEO. Прежде всего, стоп-слова помогают читателю понять содержание. Чтение заголовков и подзаголовков без стоп-слов может сбивать с толку.

Вы также можете найти случаи, когда стоп-слова помогают различать две темы. Например, вы можете выполнить поиск по запросу «фламинго» и увидеть информацию о красивых ярко-розовых птицах. Добавьте "the" впереди, и вы будете перенаправлены на YouTube, чтобы послушать группу The Flamingos.Это крошечное стоп-слово из трех букв в данном случае имеет огромное значение.

В следующем разделе давайте рассмотрим другие случаи, когда вам следует обращать внимание на стоп-слова, чтобы оптимизировать поисковый рейтинг вашего контента.

Удаление стоп-слов

Следует ли вам удалять стоп-слова из всего вашего контента?

Как и все остальное, это зависит от того, как вы их используете. Если ваши заголовки, заголовки, заголовки URL-адресов и ключевые слова имеют смысл без них, то их можно удалить.

SEO стоп-слов в заголовках

Если ваши заголовки не имеют смысла, когда вы вынимаете эти артикли или предлоги, то лучше оставить их в покое. В конце концов, вы хотите, чтобы ваша аудитория действительно щелкала и читала ваш контент. Если наиболее заметные части, включая заголовок, не имеют смысла, веб-сайт может показаться непрофессиональным или даже спамерским.

Обычно имеет смысл оставлять стоп-слова в заголовках и заголовках, поскольку это элементы навигации для пользователей, перемещающихся по вашему контенту.Просто имейте в виду, что оптимальное количество символов для заголовков составляет 50-60 символов, так как поисковые системы отсекают более длинные заголовки, которые могут упустить важную информацию для посетителя. Если в заголовке есть длинные стоп-слова, подумайте о том, чтобы переписать их, чтобы сбалансировать краткость и ясность.

стоп-слов в URL-ярлыках

Когда дело доходит до URL-ярлыков, стоп-слова обычно не имеют большого значения для SEO. Однако они актуальны, если делают ваш URL-адрес особенно длинным. Google ранжирует URL-адреса на основе их длины, и более длинные URL-адреса обычно имеют более низкий рейтинг, чем более короткие, как показано в таблице ниже.

Источник изображения

Стоп-слова как ключевые слова

Как мы уже говорили в предыдущем разделе, бывают случаи, когда стоп-слова имеют решающее значение для составления ключевых слов, потому что они отличают собственное существительное от чего-то еще. Например, если вы искали «Джетс Нью-Йорк», вы, вероятно, получили бы список рейсов, прибывающих и вылетающих из Нью-Йорка. Но если вы введете запрос «Нью-Йорк Джетс», вместо этого вы получите информацию о профессиональной футбольной команде.

Теперь, когда мы знакомы с тем, что такое стоп-слова и когда их следует использовать, давайте рассмотрим более широкий список стоп-слов, о которых следует помнить при создании и оптимизации контента.

75 стоп-слов в SEO

Есть еще много стоп-слов, но вот список некоторых из наиболее распространенных стоп-слов, о которых следует помнить при создании контента в Интернете.

А

Около

Фактически

Почти

Также

Хотя

Всегда

Am

Ан

и

Любая

Аре

Как

по адресу

Be

Стало

Стать

Но

по

Банка

Может

Сделал

До

Ли

каждый

Либо

Остальное

для

из

Было

Имеет

Иметь

Отсюда

Как

Я

Если

В

IS

IT

ЕГО

ПРОСТО

МАЯ

МОЖЕТ БЫТЬ

Я

Могущество

Шахта

Должен

Мой

Шахта

Должен

Мой

Ни то, ни другое

Нор

Не

из

О

Хорошо

Когда

Где

В то время как

Где угодно

Каждый раз

Ли

Какой

В то время как

Кто

Кого

Кто угодно

Чей

Почему

Уилл

с

В пределах

Без

Будет

Есть

Еще

Вы

Ваш

Использование стоп-слов SEO

стоп-слов для SEO важны, если вы хотите создать сильную стратегию SEO и занять высокие позиции в поисковых системах, таких как Google.