Что такое стоп-слова? Допустимый процент вхождения стоп-слов в текстах
SEO-тексты отличаются от простых текстов тем, что с помощью ключевых слов/ фраз оптимизируются под определенные поисковые запросы, облегчая пользователям поиск нужной информации. Проводить SEO-оптимизацию нужно грамотно, учитывая не только релевантность ключевиков содержанию страницы, но и множество других, влияющих на результат факторов. Поскольку, для того чтобы индексировать, а затем выдать пользователю максимально соответствующие его запросу веб-страницы, поисковые роботы подвергают содержание каждой из них тщательному анализу по многим параметрам. Наиболее важными среди них являются правильная концентрация в представленном контенте ключевых фраз, оптимальная тошнота текста и пропорция значимых и шумовых слов. Последние принимают активное участие в формировании каждого из этих параметров, поэтому познакомимся с ними поближе.
Что такое стоп-слова?
Стоп-слова (иначе называемые шумовыми) – это слова, знаки, символы, которые самостоятельно не несут никакой смысловой нагрузки и просто игнорируются поисковыми системами при осуществлении ранжирования или индексации сайтов. Но которые, тем не менее, совершенно необходимы для нормального восприятия текста, его целостности, читабельности. Без использования стоп-слов невозможно создать полноценный контент, хорошо воспринимаемый не только поисковиками, но и людьми. При написании SEO-текста они позволяют максимально органично вписать в него ключевые фразы, соединив несогласованные между собой ключевые слова с помощью предлогов или разделив их знаками препинания.
* — Примеры стоп-слов выделены в предыдущем абзаце.
Перечни стоп-слов (индивидуальные для каждой из поисковых систем, таких как Яндекс или Гугл) регулярно обновляются, поэтому представить их здесь полностью практически невозможно. Чаще всего стоп-слова подразделяют на 2 группы: общие, зависимые.
- К общим относят предлоги, частицы, междометия, союзы, наречия, местоимения, вводные слова, числа от 0 до 9 (однозначные), другие часто употребляемые служебные, самостоятельные части речи, символы, знаки препинания. Относительно недавно этот список пополнили такие часто используемые в сети Интернет последовательности символов, как www, com, http и др.
- Во вторую группу попадают слова, которые в ключевом запросе определяются, как второстепенные. Пример: в запросе «Лев Николаевич Толстой» поисковые системы выделяют основной компонент запроса – «Толстой» и второстепенные, то есть зависимые стоп-слова, имеющие значение только рядом с главным ключевым словом, – «Лев», «Николаевич». Поэтому среди выпавших в поисковой выдаче страниц будут только те, которые содержат значимый компонент запроса – «Толстой». Зависимые стоп-слова будут учитываться только при его наличии рядом с ними.
Стоп-слова и поисковые роботы
Все вышеперечисленные шумовые слова удаляются поисковыми роботами из текстов при их индексации, из ключевых фраз при определении соответствия документа конкретному запросу, заменяясь специальными символами – маркерами (*). Это делается с целью уменьшения размеров индекса, снижения нагрузок на сервер, рационального использования пространства баз данных. Кроме того, вычеркивание стоп-слов из запросов позволяет сократить количество операций по поиску каждого элемента ключевой фразы, а значит, повысить скорость, эффективность поиска нужной информации, сохранив релевантность запроса. Если вы хотите, чтобы система учла ваш ключевой запрос целиком (включая общие или зависимые стоп-слова), вам нужно для этого просто добавить к фразе знак «+».
И снова повторимся. Несмотря на полное игнорирование шумовых слов со стороны поисковых систем, при создании связных, интересных для интернет-пользователей текстов без них не обойтись. Поэтому важно найти оптимальный баланс между их откровенным недостатком и явным переизбытком, удерживая правильное их соотношение с общей массой слов и ключевыми фразами. При недостатке шумовых слов вы получите сухой, нечитаемый текст, понятный только поисковым роботам, но совершенно неинтересный для посетителей сайта. А при переизбытке – текст с повышенной водностью, утяжеляющей его восприятие читателями и размывающей суть изложенной информации.
Оптимальная концентрация стоп-слов по отношению к общему количеству слов в тексте составляет около 30%, уровень тошноты текста (на которую также влияет количество стоп-слов) старайтесь удерживать в пределах значения указанных в таблице.
Символов | Слов | Допустимая тошнота* |
До 1000 | ~167 | До 3 |
До 2000 | ~334 | До 3.5 |
До 3000 | ~500 | До 4 |
До 4000 | ~667 | До 4.5 |
До 5000 | ~834 | До 5 |
До 6000 | ~1000 | До 5.5 |
До 7000 | ~1167 | До 6 |
* Данные значения являются усредненными и не значительно отличаться для разных тематик.
В качестве вывода:
обязательно учитывайте факт пропуска стоп-слов поисковиками при формировании поисковых запросов, ключевых фраз для SEO-текстов и определении их правильной плотности, которая неминуемо повысится после замены всех стоп-слов маркерами. Но при этом не забывайте, что текст должен оставаться читабельным. Для определения оптимального количества шумовых слов в статье в помощь авторам и оптимизаторам существует множество специализированных сервисов и программ для SEO-анализа текстов. Мы привыкли пользоваться Textus Pro и Advego.
Если же для вас это сложно, то звоните нам или заказывайте услугу продвижения сайта по словам.
Хочешь стать экспертом в SEO?
Пройди курсы от SEO Интеллект
Подробнее
Понравилось? Репост!
Что такое стоп слово в тексте и какие они бывают
Стоп-слова в копирайтинге можно сравнить с красным знаком светофора. Что такое стоп-слово? Это фразы, слова, словоформы, не несущие никакой смысловой нагрузки. Их легко можно заменить или выбросить из статьи. Стоп-слова в копирайтинге делают текст малоинформативным и пресным. Поисковые системы подобный материал игнорируют, как итог — шанс оказаться в топ-выдаче невысок. Не менее печальной выглядит картина, когда заказчики просят написать SEO-текст, да еще с использованием большого количества «ключей» на пару тысяч знаков.
Как же выглядит список ненужных стоп-слов? К ним относятся:
- наречия и определения;
- штампы;
- паразиты времени;
- модальные фразы;
- очевидные формулировки;
- отглагольные существительные.
Сюда же можно причислить местоимения, междометия и фразы-клише. Интересно, но даже предлоги и цифры некоторые проверочные сервисы относят в эту категорию. В качестве стоп-слов можно привести такие примеры:
- все знают, что;
- ни для кого не секрет;
- кроме того, необходимо подумать;
- следует упомянуть, что;
- давно известно;
- в первую очередь необходимо учитывать;
- в общем-то;
- на мой взгляд и т. д.
Главная проблема стоп-слова в тексте — отсутствие этой самой проблемы. Но многие оптимизаторы и заказчики впадают в крайности. Написать текст без одного или двух этих слов — задача непростая по одной причине: текст с указанными словами становится «живее» и «человечнее». Учитывать правила поисковых роботов нужно, но не стоит забывать — ваш клиент не робот, а человек!
Употреблять ли стоп-слова в тексте?
Поисковые системы вполне благосклонно относятся к наличию тех или иных стоп-слов в тексте. Вопрос в их количестве. Любой нормальный копирайтер, будь он новичок или профи, не сможет обойтись в копирайтинге без стоп-слова. Если они есть в русском или украинском языке, значит для чего-то были придуманы. Наличие стоп-слов в тексте — нормальная практика, ведь без них материал будет выглядеть слабым, пустым и безэмоциональным. Другое дело, если речь идет о технических документах, инструкциях, законодательных статьях и актах. В остальном наличие стоп-слов ничем не навредит статье.
Ведь что такое стоп-слово? Это некий баланс между словами, которые можно оставить, а какие-то следует удалить без нарушения логики и связующей мысли. Распространенная ошибка — желание полностью убрать местоимения в тексте. В итоге мы получаем сухой безжизненный текст, написанный как для телеграммы.
Золотая середина — где она?
Когда заказчик или оптимизатор составляет техническое задание копирайтеру для написания СЕО-текста, никто не обращает внимание на количество ключевых слов, необходимых для употребления. Т. е. внести с десяток «ключей» в материал из 2000 символов — нормально, а вот прописать парочку стоп-слов — смерти подобно. Во всем должна быть норма, и в стоп-словах тоже.
SEO-специалисты считают, что в тексте может присутствовать не больше 30% стоп-слов от их общего количества. А чтобы понять это, поможет специальная проверка на стоп-слова. Но после нее не нужно сразу удалять все лишние фразы, иначе велик риск получить не просто сжатый текст, а совершенную бессмыслицу.
Без прилагательных текст становится скучным и неинтересным, а без местоимений появляются нестыковки в предложениях. Стоп-слова и полезны, и вредны одновременно. Но задача копирайтера в том и состоит, чтобы найти баланс между ними. Не нужно доходить до фанатизма и удалять все неугодные слова, фразы, предлоги, местоимения и наречия. Если видите, что из текста можно убрать шумовое слово — удаляйте без сожаления. А если понимаете, что оно приукрашает, добавляет эмоций, то пусть остается.
Надеемся, что статья была полезной и интересной, и мы смогли ответить на вопрос, что такое стоп-слово и как с ним бороться.
Ильяхов: 11 заметок с тегом стоп-слова
Ильяхов: 11 заметок с тегом стоп-слова
Rose debug info ---------------
Тег: стоп-слова
Было Данный микрофон обеспечивает оптимальный звуковой охват за счёт передовых технологий, а также надежное высококачественное поглощение вибраций за счет инновационной системе подвесов
Вот несколько примеров: .error{ color: #dA570f; font-style: normal;…
В информационном стиле есть понятие мусора. Это слова и выражения, которые не несут смысла для читателя
Есть такой корпоративный штамп «товары и услуги». Юридически он верный: фирма продает товары и оказывает услуги
Все неопределенное — кандидаты в стоп-слова. Читаю какие-то статьи, отвечаю на какие-то звонки → Читаю статьи, отвечаю на звонки
Сослагательное наклонение и частица «бы» — кандидаты в стоп-лист
В продолжение разговора о словах «просто» и «но». У Карнеги наконец-то нашёл почти универсальную пилюлю от «но»
Слова вроде: действительно, реально, на самом деле…
Такой комментарий подойдёт любой книге: Книга очень понравилась, никого не оставит равнодушным. Отличается интересным стилем, читается легко, доступна любому виду читателей
«Просто» — опасное слово-паразит. Оно всплывает, когда человек оправдывается
This text was created with a very old version of Aegea that used a formatter called Calliope. It is no longer included with Aegea 2
Стоп-слова – что это такое и как правильно применять.
Стоп-слова – seo-термин, обозначающий слова, не обладающие смысловой нагрузкой («шумовые слова»).
Что считать стоп-словами?
Стоп-слова – название слов-связок, без которых невозможно построение полноценного текст, обладающего должным смыслом. Включают в себя:
-
Вводные слова; -
Знаки препинания; -
Междометия; -
Местоимения; -
Предлоги; -
Союзы и союзные слова; -
Указательные слова; -
Цифры; -
Частицы.
Это могут быть определённые существительные, глаголы, наречия (всегда, давать, например, однако и т.п.).
Поскольку алгоритмы поисковых системнеустанно развиваются и совершенствуются, происходит периодическое обновление и изменение списков стоп-слов. Собственная база стоп-слов имеется у всех поисковиков. При написании текстов обязательное внимание стоит обращать на вхождение стоп-слов из вышеуказанных категорий и соотношение их с общей словесной массой, включая ключевые слова.
Значение для поисковых роботов и пользователей
Стоп-слова не оказывают никакого влияния на поисковые системы, автоматически пропускаясь при индексации для того, чтобы сэкономить пространство баз данных. Данный факт обязательно следует учитывать при продвижении сайта в момент составления поисковых запросовс определением плотности ключевых слов, что касается контентного наполнения страниц.
Увеличение количества стоп-слов в тексте приводит к затруднённому восприятию читателями и создаёт впечатление «водянистости». Если стоп-слов в тексте недостаточно (оптимизатор ориентировался преимущественно на поисковые роботы, а не на читателя), такой контентпостепенно становится неинтересным пользователю.
Услуги, связанные с термином:
Стоп слово — что это? Примеры списков стоп слов от Семён Ядрён
Стоп слова в семантике
Стоп слово в семантическом ядре — это слово, которое является не целевыми для выбранной тематики.
Например: для тематики «клининг, уборка квартиры», стоп слова будут: пшеница (уборка пшеницы), игра (игра об уборке для девочек) и т.д.
Другие встречаемые варианты терминов стоп слов:
- минус слова
- мусорные ключи
- не целевые запросы
Стоп слова в seo используются для:
- при обязательной чистке семантического ядра от различного мусора и не целевых тематик.
- для правильной настройки контекстной рекламы, исключив показы объявления для не целевой аудитории.
Скачать примеры
Что такое стоп слова в тексте
Понятие стоп-слова в тексте документа — это фразы и слова, которые не несут смысловой нагрузки и затрудняют индексирование страницы поисковыми системами. Стоп-слова не любят редакторы и поисковые системы.
Примеры стоп слов в тексте:
- Междометия: ах, ух, ну, уж, ой.
- Местоимения: я, мы, мой, вы, ваш.
- Неопределенность: где-то, что-то, зачем-то, как-то, какой-то, около, порядка, примерно, всего.
- Вводные структуры: на самом деле, допустим, скажем.
- Слова-усилители: предельно, максимально, наиболее, очень, самый, абсолютно, сильно.
- Оценочные: роскошный, уютный, красивый, дорогой (не следует сочетать их со словами из предыдущего пункта).
- Очевидные формулировки: данный документ, этот сайт, на данной странице, кликните эту кнопку, нажмите тут, форма внизу страницы.
- Бытовые штампы: направо и налево, сплошь и рядом, шаг за шагом, так или иначе, мало-помалу.
- Штампы, характерные для прессы: ударными темпами, пески времени, царила атмосфера, в лучших традициях.
- Штампы корпоративного или рекламного характера: индивидуальный подход, решать бизнес-задачи, завоевать доверие клиентов, расширить географию продаж.
- «Временные» слова-паразиты: в наши дни, в настоящее время, в современном мире.
- Словосочетания с отглагольными существительными: оказывать услуги по ремонту, производить ремонт, осуществлять деятельность.
- Модальные фразы: нужно пройти процедуру, можете авторизоваться, должны завершить заказ.
- Страдательные глаголы и сказуемые в безличных предложениях: спорткомплекс построен по заказу мэрии, леса вырубают.
Для анализа и подсчета стоп-слов в тексте, можно воспользоваться — advego.ru/text/seo/
Видео
Общие стоп слова
Общие стоп слова — это предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции. Источник: wikipedia
В качестве вывода
Стоп слова — одинаково вредны, как при составлении семантического ядра, так и при написании текста.
Что такое стоп-слова? | Агентство копирайтинга Text iS
Стоп-слова (или шумовые слова) это лексические единицы текста, лишенные смысловой нагрузки и особенно нелюбимые заказчиками. К категории стоп-слов относится в основном служебная лексика и не значимые части речи (особенно – вводные слова), а также предлоги, междометия, союзы, частицы. У каждой из поисковых систем имеется собственный список шумовых слов.
Стоп-слова первого абзаца выделены жирным.
Некоторые биржи контента и SEO-компании даже дают своим штатным копирайтерам списки стоп-слов, которые не должны встречаться в тексте. И если во времена глупого SEO, когда уникальным рерайтом можно было завести тексты в ТОП, такое было вполне оправдано, то сегодня это, скорее недостаток.
Нужны ли стоп-слова сегодня?
По собственным наблюдениям, шумовые слова вполне благосклонно воспринимаются поисковыми системами. Естественно, только в том случае если они не переполняют текст, создавая ощущение, будто бы автор намеренно напихал их в материал «для веса». В своей работе каждый нормальный автор не может вообще обходиться без использования стоп-слов.
Как вы понимаете, если какие-то слова встречаются в русском языке, значит, они зачем-то были придуманы. Лишать текст вводных слов, частиц или междометий опасно по той простой причине, что в нормальных текстах стоп-слова являются нормой. Во времена доминирования поведенческих факторов крайне нежелательно делать пустые, эмоционально и лексически слабые тексты. Уж лучше со стоп-словами, но достойно и полновесно, чем намеренная лингвистическая кастрация. Поисковые системы давно уже стремятся к максимальной естественности, а потому стоп-слова все же необходимы, как органичная и обязательная часть русского языка.
Поделиться
Твитнуть
Поделиться
Отправить
Оценить статью
Загрузка…
Ответить
2 Comment threads
1 Thread replies
0 Followers
Most reacted comment
Hottest comment thread
Новые Старые Популярные
Михаил Кунижев
Видимо, беда в том, что заказчикам нужен контент, а не текст. Про стоп-слова узнал впервые. Спасибо, Пётр. Теперь бы понять, что делать с этим знанием
Голос за0Голос против Ответить
Да ничего не делайте, пишите как и раньше, все эти присказки уходят в прошлое. Главное – не увлекаться стоп-словами, и тогда все будет в порядке.
Голос за0Голос против Ответить
Заказчики полюбляют простыню из стоп-слов предоставлять, которые употреблять нельзя под страхом минуса в карму)) Текст получается сухой, неинтересный. А меня вот гложет : и не лень было этому заказчику на двух листах словечки писать?
Голос за3Голос против Ответить
что это и какие слова не нужно использовать на сайте
Делаем вашу страницу интересной и стимулируем подписчиков почаще заглядывать к вам на страницу или на сайт за покупками
Стоп-слова — это фразы и слова, которые не несут смысловой нагрузки и затрудняют индексирование страницы поисковыми системами.
Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA
Представьте, что вы едите салат оливье. В него помимо нужных ингредиентов добавили зачем-то кусочки ананаса. В итоге вкус блюда ужасен. Ананас не позволяет почувствовать вкус оливье.
Со стоп-словами так же. Они не нужны в тексте. Они не дают поисковым роботам ранжировать страницу. Они не влияют на смысл текста. Они не помещаются в сниппет в выдаче. Это — мусор, который не нужен в сильном тексте. От мусора нужно избавляться.
Какие бывают стоп-слова и как влияют на ранжирование в Гугл и Яндекс
Каждый день в индекс поисковых систем заносится большое число страниц. Чтобы экономить место на сервере, поисковые машины не учитывают некоторые слова, отбрасывают часть букв, цифры, одиночные местоимения. Они помечаются специальным маркером и не индексируются роботами.
Не используйте стоп-слова в метатегах title и description.
Стоп-слова делят на две группы.
- Общие.
К этой группе относят суффиксы, частицы, предлоги, цифры, частицы, личные местоимения. Они никогда не включаются в индекс поисковиков. Исключение — когда поиск идет по точному соответствию фразе из запроса. - Зависимые.
Это слова, которые зависят от поискового запроса. Иногда некоторые слова из ключевой фразы можно выбросить. Например, если поиск осуществляется по ключу «Лев Николаевич Толстой», отобразятся страницы, которые содержат слова «Лев Николаевич», «Толстой». Но не попадут в выдачу те результаты, где есть просто «Лев», «Николаевич». Эти слова называются шумовыми.
Как стоп-слова влияют на текст при копирайтинге
Стоп-слова не нужны в тексте. Когда копирайтер пишет статью, ему хочется вставить в текст вводные слова: «Соответственно», «тем не менее», «так» и т. д.
Сравним два предложения.
Мороз стоял сильный, соответственно, занятия в школе отменили.
Из-за мороза школы закрыты.
Смысл предложений одинаков — и там, и там говорится, что школа закрыта, дети не учатся. Посмотрите хотя бы на длину этих двух высказываний, на лаконичность.
Человеку, который пишет текст, нужно следить за своей речью. В 95% случаев предложение можно переписать без использования вводных слов, причастных и деепричастных оборотов. Можно сократить число предлогов, местоимений и союзных слов до минимума.
Если вы пишете текст, постоянно перечитывайте то, что уже написали. Не бойтесь сокращать текст. Читатели и поисковые роботы скажут вам спасибо.
Денис Давыдов
Контент-маркетолог
Я работаю с биржей копирайтинга. В день проверяю больше 15 текстов. Постоянно возникает ситуация, когда текст надо сокращать. Чтобы набрать нужное количество символов, автор использует ненужные слова — вводные, обороты, лишние союзы и местоимения. После редактуры такой текст сокращается на 30-40%. Я требую, чтобы вместо воды и стоп-слов писатель использовал какие-то факты, приводил статистику. Например — хоть это и не относится к стоп-словам — любой риторический вопрос можно заменить ответом. Читателю не нужны вопросы, читателю нужны ответы. Это относится и к стоп-словам. Пишите текст и не бойтесь потом его сокращать. Читателю скажут вам спасибо.
Как поисковые системы учитывают стоп-слова
Роботы должны отличать ненужную информацию от нужной. Однозначные числа не индексируются. А вот длинные — например, номера телефонов, адреса организаций, дата или время — попадают в индекс. Это важная информация, пренебрегать ею нельзя.
Если вам нужно обязательно привлечь внимание поисковой системы к стоп-слову — например, если это часть ключа — поставьте перед ним символ «+». Это повысит частотность запроса.
Какие стоп-слова не нужно использовать
- Псевдо-коммерческие слова: бесплатно, даром, скачать.
Эти слова не несут никакой нагрузки в коммерческом тексте. - Названия брендов.
Если вы пишете тематический текст, не используйте названия конкурирующих товаров, компаний. - Слова игровой тематики, связанные с соцсетями.
- Слова, не относящиеся к теме вашего сайта.
- Ключевые запросы, связанные с софтом.
- Нецензурная лексика.
- Лексика порнографического характера.
Следите за тем, что и как вы пишите. Стоп-слов нужно как можно меньше. Но если без них никак не обойтись — не бойтесь их употреблять. В первую очередь вы должны сделать материал привлекательным для читателя, а потом уже для поисковой системы.
Если пишете тематическую статью, стоп-словами для вас будут так же термины, которые относятся к теме. Если страница с текстом оптимизируется под определенную ключевую фразу, при сборе семантического ядра специфичные термины и названия так же будут расценены поисковой системой как стоп-слова.
Нецезурная лексика, брань и пошлые выражения не ценятся ни одной поисковой системой. Любое нецензурное ругательство можно заменить литературным аналогом. Вы же пишете текст, а не говорите с товарищем по подъезду. Следите за литературностью речи.
Как проверить текст на стоп-слова
Вы можете воспользоваться сервисами, которые проверяют текст на стоп-слова онлайн. Самый мощный инструмент — сервис Главреда. Он проверяет материал на соответствие информационному стилю. Он показывает уровень воды в тексте, указывает на фрагменты, которые можно переписать без стоп-слов.
Сервис Advego тоже поможет вам оценить уровень вашего текста. Загрузите текст на биржу, запустите семантический анализ.
Стоп-слова не учитываются поисковиками. Они влияют на читаемость текста. Чем их меньше — тем легче воспринимается материал. Нет никакого смысла спамить такими словами. Но следите за тем, как вы пишите. И если вам точно нужно вставить такое слово, смело пишите. Статья должна быть написана в первую очередь для людей. Потом — для поисковых машин.
Перечитайте ваш текст. Оцените грамотность и логичность изложения. Сократите его, уберите лишнее. И ответьте на вопрос: «Поймет ли сторонний человек смысл статьи, то, что вы хотите до него донести?»
Сильный текст на вашем сайте — залог успешного ранжирования и привлечения посетителей.
Удаление стоп-слов с помощью NLTK в Python
Процесс преобразования данных во что-то, что компьютер может понять, называется предварительной обработкой . Одна из основных форм предварительной обработки — отфильтровывать бесполезные данные. При обработке естественного языка бесполезные слова (данные) называются стоп-словами.
Что такое стоп-слова?
Стоп-слова: Стоп-слово — это часто используемое слово (например, «the», «a», «an», «in»), которое поисковая система запрограммирована игнорировать, как при индексировании записей для поиск и при получении их в результате поискового запроса.
Мы бы не хотели, чтобы эти слова занимали место в нашей базе данных или драгоценное время обработки. Для этого мы можем легко удалить их, сохранив список слов, которые вы считаете стоп-словами. NLTK (Natural Language Toolkit) в python имеет список стоп-слов, хранящихся на 16 разных языках. Вы можете найти их в каталоге nltk_data. home / pratima / nltk_data / corpora / stopwords — это адрес каталога. (Не забудьте изменить имя домашнего каталога)
Чтобы проверить список стоп-слов, вы можете ввести следующие команды в оболочке python.
импорт НЛТК из nltk.corpus импортировать стоп-слова print (stopwords.words ('english'))
{‘мы’, ‘ее’, ‘между’, ‘себя’, ‘но’, ‘снова’, ‘там’, ‘примерно’, ‘однажды’, ‘во время’, ‘вне’, ‘очень’, ‘иметь’, ‘с’, ‘они’, ‘владеть’, ‘ан’, ‘быть’, ‘некоторые’, ‘для’, ‘делать’, ‘это ‘,’ ваш ‘,’ такой ‘,’ в ‘,’ из ‘,’ большинство ‘,’ сам ‘,’ другой ‘,’ выкл ‘,’ есть ‘,’ s ‘,’ am ‘,’ or ‘, «кто», «как», «от», «он», «каждый», «тот», «себя», «до», «ниже», «есть», «мы», «эти», «ваш» ‘,’ его ‘,’ через ‘,’ не ‘,’ ни ‘,’ я ‘,’ были ‘,’ она ‘,’ больше ‘,’ сам ‘,’ это ‘,’ вниз ‘,’ должен ‘, ‘наш’, ‘их’, ‘пока’, ‘выше’, ‘оба’, ‘вверх’, ‘к’, ‘наш’, ‘имел’, ‘она’, ‘все’, ‘нет’, ‘когда ‘,’ в ‘,’ любой ‘,’ до ‘,’ они ‘,’ такой же ‘,’ и ‘,’ был ‘,’ иметь ‘,’ в ‘,’ будет ‘,’ на ‘,’ делает ‘, ‘сами’, ‘то’, ‘то’, ‘потому что’, ‘что’, ‘больше’, ‘почему’, ‘так’, ‘могу’, ‘сделал’, ‘не’, ‘сейчас’, ‘под ‘,’ он ‘,’ ты ‘,’ сама ‘,’ имеет ‘,’ просто ‘,’ где ‘,’ тоже ‘,’ только ‘,’ я ‘,’ который ‘,’ те ‘,’ я ‘, ‘после’, ‘несколько’, ‘кого’, ‘т’, ‘быть’, ‘если’, ‘их’, ‘мой’, ‘против’, ‘а’, ‘по’, ‘делаешь g »,« это »,« как »,« дальше »,« было »,« здесь »,« чем »}
Примечание: Вы даже можете изменить список, добавив слова по вашему выбору на английском языке.текст. файл в каталоге игнорируемых слов.
Удаление стоп-слов с помощью NLTK
Следующая программа удаляет стоп-слова из фрагмента текста:
|
Вывод:
['Это', 'есть', 'a', 'образец', 'предложение', ',', 'показ', 'выкл', 'в', 'стоп', 'слова', 'фильтрация', '.'] ['Это', 'образец', 'предложение', ',', 'показ', 'стоп', 'слова', 'фильтрация', '.']
Выполнение операций со стоп-словами в файле
В приведенном ниже коде текст.txt - это исходный входной файл, в котором должны быть удалены стоп-слова. filtertext.txt - выходной файл. Это можно сделать с помощью следующего кода:
|
Вот как мы делаем наш обрабатываемый контент более эффективным, удаляя слова, которые не влияют на какие-либо будущие операции.
Автор статьи Pratima Upadhyay . Если вам нравится GeeksforGeeks, и вы хотите внести свой вклад, вы также можете написать статью, используя свой вклад.geeksforgeeks.org или отправьте свою статью по адресу [email protected]. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.
Пожалуйста, напишите комментарий, если вы обнаружите что-то неправильное, или если вы хотите поделиться дополнительной информацией по теме, обсуждаемой выше.
Что такое стоп-слова. Как удалить стоп-слова.
Все о стоп-словах при обработке естественного языка вместе с практическими примерами.
Фото Хосе Арагонеса на Unsplash
В этой статье мы узнаем все о стоп-словах для обработки естественного языка.
В вычислениях стоп-слова - это слова, которые отфильтровываются до или после обработки данных естественного языка (текста). В то время как «стоп-слова» обычно относятся к наиболее распространенным словам в языке, инструменты обработки естественного языка не используют единый универсальный список стоп-слов.
«стоп-слова» обычно относятся к наиболее употребительным словам в языке. Не существует универсального списка «стоп-слов», который используется всеми инструментами НЛП совместно.
В этой статье мы рассмотрим следующие темы:
- Что такое стоп-слова
- Когда удалять стоп-слова
- Плюсы и минусы
- Как удалить стоп-слова в Python с помощью:
* Библиотека NLTK
* SpaCy Библиотека
* Библиотека Gensim
* Пользовательские стоп-слова
Что такое стоп-слова?
Стоп-слова - это слов на любом языке, которые не добавляют особого смысла предложению.Их можно спокойно игнорировать, не жертвуя смыслом предложения. Для некоторых поисковых систем это одни из самых распространенных коротких служебных слов, например, is, at, which и on. В этом случае стоп-слова могут вызвать проблемы при поиске фраз, которые их включают, особенно в таких именах, как «Кто» или «Возьми это».
Когда удалять стоп-слова?
Если у нас есть задача классификации текста или анализа тональности, мы должны удалить стоп-слова, поскольку они не предоставляют никакой информации для нашей модели, т.е.e не допускает попадания нежелательных слов в наш корпус, , но если у нас есть задача языкового перевода, то полезны стоп-слова, так как они должны переводиться вместе с другими словами.
Не существует жесткого правила, когда следует удалять стоп-слова. Но я бы предложил удалить стоп-слова, если наша задача - это классификация языков, фильтрация спама, создание титров, автоматическое создание тегов, анализ тональности или что-то, что связано с классификацией текста.
С другой стороны, если наша задача связана с машинным переводом, задачами с ответами на вопросы, обобщением текста, языковым моделированием, лучше не удалять стоп-слова, поскольку они являются важной частью этих приложений.
Плюсы и минусы:
Первое, что мы задаем себе, - это плюсы и минусы любой выполняемой нами задачи. Давайте посмотрим на некоторые плюсы и минусы удаления стоп-слов в НЛП.
pro:
* Стоп-слова часто удаляются из текста перед обучением моделей глубокого обучения и машинного обучения, поскольку стоп-слова встречаются в изобилии, поэтому практически не предоставляются уникальные данные, которые можно использовать для классификации или кластеризации.
* При удалении игнорируемых слов размер набора данных уменьшается, и время обучения модели также уменьшается без значительного влияния на точность модели.
* Удаление стоп-слова может потенциально помочь в повышении производительности, так как осталось меньше и только значительных токенов. Таким образом, точность классификации может быть улучшена.
cons:
Неправильный выбор и удаление стоп-слов может изменить смысл нашего текста. Поэтому мы должны быть осторожны при выборе стоп-слов.
Пример: «Этот фильм нехороший».
Если мы удаляем (не) на этапе предварительной обработки, предложение (этот фильм хороший) указывает, что оно положительное, что неправильно интерпретируется.
Как удалить стоп-слова в Python с помощью:
Удаление стоп-слов с помощью библиотек Python довольно просто и может быть выполнено разными способами. Пройдем по порядку.
Использование библиотеки NLTK:
Набор инструментов для естественного языка, или чаще NLTK, представляет собой набор библиотек и программ для символьной и статистической обработки естественного языка для английского языка, написанных на языке программирования Python. Он содержит библиотеки обработки текста для токенизации, синтаксического анализа, классификации, выделения корней, тегов и семантических рассуждений.
Давайте посмотрим, как мы можем удалить стоп-слова с помощью библиотеки Python NLTK.
с использованием NLTK для удаления вектора с маркерами стоп-слов со стоп-словами и без них
Мы можем заметить, что такие слова, как 'this', 'is', 'will', 'do', 'more', 'such' удаляются из размеченного вектора они являются частью набора стоп-слов НЛТК. Мы можем просмотреть все такие стоп-слова для английского языка, напечатав стоп-слова.
Список из 179 стоп-слов NLTK
Использование библиотеки SpaCy:
spaCy - это программная библиотека с открытым исходным кодом для расширенной обработки естественного языка.spaCy разработан специально для production и помогает создавать приложения, которые обрабатывают и «понимают» большие объемы текста. Его можно использовать для построения систем извлечения информации или понимания естественного языка или для предварительной обработки текста для глубокого обучения.
Перед тем как продолжить, убедитесь, что вы установили spaCy и его английскую языковую модель. Для этого вы можете использовать следующие команды.
$ pip install -U spacy
$ python -m spacy загрузить en_core_web_sm
Давайте посмотрим, как мы можем удалить стоп-слова с помощью этой библиотеки.
с использованием spaCy для удаления вектора с токенизированными стоп-словами со стоп-словами и без них.
Вывод токенизированных векторов NLTK и spaCy без стоп-слов одинаков. Но у spaCy был больший набор стоп-слов (326), чем у NLTK (179).
Список из 326 стоп-слов spaCy
Использование библиотеки Gensim:
Gensim - это библиотека с открытым исходным кодом для неконтролируемого моделирования тем и обработки естественного языка с использованием современного статистического машинного обучения. Gensim предназначен для обработки больших текстовых коллекций с использованием потоковых данных и инкрементальных онлайн-алгоритмов, что отличает его от большинства других программных пакетов машинного обучения, ориентированных только на обработку в памяти.Для получения более подробной информации ознакомьтесь с документацией Gensim.
Используя Gensim, мы можем напрямую вызвать remove_stopwords () , который является методом gensim.parsing.preprocessing. Затем нам нужно передать наше предложение, из которого вы хотите удалить стоп-слова, методу remove_stopwords (), который возвращает текстовую строку без стоп-слов. Затем мы можем токенизировать возвращенные предложения.
Давайте посмотрим, как мы можем удалить стоп-слова с помощью библиотеки Gensim.
с использованием gensim для удаления вектора, отмеченного стоп-словами, со стоп-словами и без них.
Мы можем заметить, что выходные данные NLTK, spaCy и gensim одинаковы, хотя каждый из них имеет другой набор стоп-слов по умолчанию.Давайте посмотрим на 337 стоп-слов Gensim.
Список из 337 стоп-слов gensim
Пользовательские стоп-слова:
Если вам кажется, что стоп-слов по умолчанию в любом языковом средстве Python NLP слишком много и они вызывают потерю информации, или слишком мало, чтобы удалить все ненужные слова из вашего corpus, то мы можем выбрать собственный список стоп-слов.
Для этого вы можете просто получить стоп-слова по умолчанию в список и добавить или удалить требуемые слова из списка в соответствии с требованиями.
настраиваемый список стоп-слов
Если нам нужно очень мало стоп-слов, мы можем определить наш собственный список стоп-слов и использовать его для удаления соответствующих слов из нашего корпуса.
Пример:
my_stopword_list = ['the,' is ',' as ',' a ',' are ',' in ',' this ',' that ']
Заключение:
В этой статье мы узнали, что такое стоп-слова, плюсы и минусы удаления стоп-слов. В этой статье мы также видели различные библиотеки, которые можно использовать для удаления стоп-слов из строки Python.Вы также увидели, как добавлять или удалять стоп-слова из списков стоп-слов по умолчанию, которые предоставлены различными библиотеками для создания пользовательских списков стоп-слов.
Полный код записной книжки Jupyter доступен в моем GitHub .
Удачного обучения!
Что такое стоп-слова? | Опиноз Аналитика
Стоп-слова - это набор часто используемых слов в языке. Примеры стоп-слов на английском языке: «a», «the», «is», «are» и т. Д.Стоп-слова обычно используются в интеллектуальном анализе текста и обработке естественного языка (NLP) для исключения слов, которые так часто используются, что несут очень мало полезной информации.
Например, в контексте поисковой системы, если ваш поисковый запрос - «какое стоп-слово?» , вы хотите, чтобы поисковая система фокусировалась на обнаружении документов, которые говорят о стоп-слове
, поверх документов, которые говорят о , что такое
.
Это можно сделать, поддерживая список стоп-слов (который можно настраивать вручную или автоматически) и предотвращая анализ всех слов из списка стоп-слов.В этом примере слова , которые являются
, можно исключить, оставив только слова: стоп-слово
. Это гарантирует, что тематически релевантные документы будут иметь высокий рейтинг в результатах поиска.
Стоп-слова для контекста
Хотя стоп-слова обычно используются для удаления слов с низкой информацией, стоп-слова также могут стать мощным средством добавления контекста. Например, в запросе «что такое стоп-слово?» , , если вы знаете, что это на самом деле вопрос что такое , а не вопрос как на , вы можете дополнительно уточнить результаты, показываемые пользователям.Один из способов узнать это - просто взглянуть на слова, не относящиеся к теме. Если у вас есть эта контекстная информация, вместо рейтинга «Как использовать стоп-слова?» в самом верху результатов поиска вы можете научить свои алгоритмы ранжировать документы, связанные с вопросом «Что такое стоп-слова?» намного выше.
Где найти список стоп-слов?
Существуют установленные списки стоп-слов, которые можно легко подключить и использовать. Некоторые списки стоп-слов являются результатом исследовательской работы НЛП, а некоторые просто вручную составлены разными людьми.Вот несколько слов на разных языках, которые вы можете попробовать:
Списки стоп-слов для конкретного домена
Хотя использовать опубликованный набор стоп-слов довольно просто, во многих случаях таких стоп-слов недостаточно. Например, в клинических текстах такие термины, как «мкг» «доктор». и «пациент» встречаются почти в каждом документе, с которым вы сталкиваетесь. Таким образом, эти термины можно рассматривать как потенциальные стоп-слова для интеллектуального анализа и поиска клинических текстов.
Аналогичным образом, для твитов такие термины, как «#», «RT», «@username» могут потенциально рассматриваться как стоп-слова.К сожалению, стоп-слова для конкретных языков не охватывают термины, относящиеся к конкретной предметной области. Хорошей новостью является то, что вы можете легко создать свой собственный список стоп-слов для конкретной предметной области. В этой статье рассказывается о нескольких идеях о том, как создавать такие списки.
Связанные
Удаление стоп-слов из строк в Python
В этой статье вы увидите различные методы удаления стоп-слов из строк в Python.Стоп-слова - это слова на естественном языке, которые имеют очень мало значения, такие как «есть», «an», «the» и т. Д. Поисковые системы и другие корпоративные платформы индексирования часто фильтруют стоп-слова при извлечении результатов из базы данных по пользовательские запросы.
Стоп-слова часто удаляются из текста перед обучением моделей глубокого обучения и машинного обучения, поскольку стоп-слова встречаются в изобилии, а значит, практически не предоставляют уникальной информации, которую можно использовать для классификации или кластеризации.
Удаление стоп-слов с помощью Python
С языком программирования Python у вас есть множество опций, которые можно использовать для удаления стоп-слов из строк. Вы можете использовать одну из нескольких библиотек обработки естественного языка, таких как NLTK, SpaCy, Gensim, TextBlob и т. Д., Или, если вам нужен полный контроль над стоп-словами, которые вы хотите удалить, вы можете написать свой собственный сценарий.
В этой статье вы увидите несколько различных подходов в зависимости от библиотеки НЛП, которую вы используете.
Использование библиотеки Python NLTK
Библиотека NLTK - одна из старейших и наиболее часто используемых библиотек Python для обработки естественного языка. NLTK поддерживает удаление стоп-слов, и вы можете найти список стоп-слов в модуле corpus
. Чтобы удалить стоп-слова из предложения, вы можете разделить текст на слова, а затем удалить слово, если оно выходит из списка стоп-слов, предоставленного NLTK.
Давайте посмотрим на простой пример:
от nltk.корпус импортных игнорируемых слов
nltk.download ('стоп-слова')
из nltk.tokenize import word_tokenize
text = "Ник любит играть в футбол, но не слишком любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в stopwords.words ()]
печать (tokens_without_sw)
В приведенном выше сценарии мы сначала импортируем коллекцию стоп-слов
из модуля nltk.corpus
. Затем мы импортируем метод word_tokenize ()
из nltk.tokenize
класс. Затем мы создаем переменную text
, которая содержит простое предложение. Предложение в переменной text
токенизируется (делится на слова) с помощью метода word_tokenize ()
. Затем мы перебираем все слова в списке text_tokens
и проверяем, существует ли слово в коллекции стоп-слов или нет. Если слово не существует в коллекции стоп-слов, оно возвращается и добавляется в список tokens_without_sw
.Затем распечатывается список tokens_without_sw
.
Вот как выглядит предложение без стоп-слов:
['Ник', 'нравится', 'играть', 'футбол', ',', 'однако', 'любить', 'теннис', '.']
Вы можете видеть, что слова –
, он
, это
, не
и тоже
были удалены из предложения.
Вы можете присоединиться к списку вышеперечисленных слов, чтобы создать предложение без стоп-слов, как показано ниже:
filter_sentence = ("").присоединиться (tokens_without_sw)
печать (отфильтрованное_предложение)
Вот результат:
Ник любит играть в футбол, но любит теннис.
Добавление или удаление стоп-слов в списке стоп-слов NLTK по умолчанию
Вы можете добавлять или удалять стоп-слова по вашему выбору в существующий набор стоп-слов в NLTK. Прежде чем удалять или добавлять стоп-слова в NLTK, давайте посмотрим список всех английских стоп-слов, поддерживаемых NLTK:
отпечаток (стоп-слова.слова ('английский'))
Выход:
[«я», «я», «мой», «я», «мы», «наш», «наш», «мы», «ты», «ты», «ты» , "вы", "вы бы", 'ваш', 'ваш', 'себя', 'вас', 'он', 'его', 'его', 'он', 'она', " она "," ее "," ее "," она "," это "," это "," ее "," сама "," они "," они "," их "," их "," сами " , 'what', 'which', 'who', 'who', 'this', 'that', "that'll", 'this', 'те', 'am', 'is', 'are' , 'был', 'был', 'быть', 'был', 'быть', 'иметь', 'имел', 'иметь', 'иметь', 'делать', 'делает', 'сделал', ' выполнение ',' a ',' an ',' the ',' and ',' but ',' if ',' or ',' потому что ',' as ',' until ',' while ',' of ' , 'at', 'by', 'for', 'with', 'about', 'Again', 'between', 'into', 'through', 'во время', 'до', 'после', ' выше ',' ниже ',' в ',' от ',' вверх ',' вниз ',' внутрь ',' вне ',' вкл ',' выкл ',' над ',' под ',' снова ' , 'далее', 'затем', 'один раз', 'здесь', 'там', 'когда', 'где', 'почему', 'как', 'все', 'любой', 'оба', ' каждый »,« несколько »,« больше »,« большинство »,« другие »,« некоторые »,« такие »,« нет »,« ни »,« не »,« только »,« свой »,« такой же » , s o ',' than ',' too ',' very ',' s ',' t ',' can ',' will ',' just ',' don ', "не",' следует ', " должен был иметь ", 'сейчас', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren'," не " , 'couldn', 'could', 'didn', "not", 'doesn', "not", 'hadn', "hadn't", 'hasn', "не имеет" , 'haven', "not", 'isn', "not", 'ma', 'mightn', "could not", 'mustn', "must not", 'needn', " не нужно »,« шань »,« не должен »,« не должен »,« не должен »,« не было »,« не было »,« не было »,« не было »,« выиграл »," не будет ", 'не будет'," не будет "]
Добавление стоп-слов в список стоп-слов NLTK по умолчанию
Чтобы добавить слово в коллекцию стоп-слов NLTK, сначала создайте объект из стоп-слов.слова ('английский')
список. Затем используйте метод append ()
в списке, чтобы добавить любое слово в список.
Следующий сценарий добавляет слово play
в коллекцию стоп-слов NLTK. Опять же, мы удаляем все слова из нашей переменной text
, чтобы увидеть, удалено ли слово play
или нет.
all_stopwords = stopwords.words ('английский')
all_stopwords.append ('играть')
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'лайки', 'футбол', ',', однако ',' любил ',' теннис ','.']
Выходные данные показывают, что слово play
было удалено.
Вы также можете добавить список слов в список stopwords.words
, используя метод append
, как показано ниже:
sw_list = ['нравится', 'играть']
all_stopwords.extend (sw_list)
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Приведенный выше сценарий добавляет два слова любит
и проигрывает
к стоп-словам.список слов
. В выводе вы не увидите эти два слова, как показано ниже:
Выход:
['Ник', 'футбол', ',', 'однако', 'любящий', 'теннис', '.']
Удаление стоп-слов из списка стоп-слов NLTK по умолчанию
Поскольку stopwords.word ('english')
- это просто список элементов, вы можете удалять элементы из этого списка, как и любой другой список. Самый простой способ сделать это - использовать метод remove ()
. Это полезно, когда вашему приложению требуется стоп-слово, которое нельзя удалить.Например, вам может потребоваться сохранить в предложении слово , а не
, чтобы знать, когда утверждение отвергается.
Следующий скрипт удаляет стоп-слово , а не
из списка стоп-слов по умолчанию в NLTK:
all_stopwords = stopwords.words ('английский')
all_stopwords.remove ('не')
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'нравится', 'играть', 'футбол', ',', 'однако', 'не', 'любить', 'теннис', '.']
Из вывода видно, что слово , а не
не было удалено из входного предложения.
Использование библиотеки Python Gensim
Библиотека Gensim - еще одна чрезвычайно полезная библиотека для удаления стоп-слов из строки в Python. Все, что вам нужно сделать, это импортировать метод remove_stopwords ()
из модуля gensim.parsing.preprocessing
. Затем вам нужно передать предложение, из которого вы хотите удалить стоп-слова, методу remove_stopwords ()
, который возвращает текстовую строку без стоп-слов.
Давайте рассмотрим простой пример того, как удалить стоп-слова через библиотеку Gensim.
из gensim.parsing.preprocessing import remove_stopwords
text = "Ник любит играть в футбол, но не слишком любит теннис."
filter_sentence = remove_stopwords (текст)
печать (отфильтрованное_предложение)
Выход:
Ник любит играть в футбол, увлекается теннисом.
Важно отметить, что результат удаления стоп-слов с помощью библиотек NLTK и Gensim отличается.Например, библиотека Gensim считала слово , а
стоп-словом, а NLTK - нет, и поэтому не удалила его. Это показывает, что не существует жестких правил относительно того, что такое стоп-слово, а что нет. Все зависит от задачи, которую вы собираетесь выполнять.
В следующем разделе вы увидите, как добавить или удалить стоп-слова из существующей коллекции стоп-слов в Gensim.
Добавление и удаление стоп-слов в списке стоп-слов Gensim по умолчанию
Давайте сначала взглянем на стоп-слова в библиотеке Python Gensim:
импорт gensim
all_stopwords = gensim.parsing.preprocessing.STOPWORDS
печать (all_stopwords)
Выход:
frozenset ({'ее', 'во время', 'среди', 'после', 'только', 'ее', 'в', 'нет', 'с', 'un', 'положить', ' отсюда ',' каждый ',' будет ',' иметь ',' к ',' сам ',' тот ',' кажущийся ',' после этого ',' кто-то ',' восемь ',' она ',' сорок ' , «много», «повсюду», «меньше», «было», «интерес», «где-то еще», «уже», «что угодно», «или», «кажется», «огонь», «однако», « держать ',' деталь ',' оба ',' себя ',' действительно ',' достаточно ',' тоже ',' нас ',' при чем ',' себя ',' позади ',' все ',' часть ' , 'made', 'after', 'for', 'nor', 'before', 'front', 'искренний', 'действительно', 'чем', 'один', 'делаю', 'среди', ' поперек »,« он »,« другой »,« какой-то »,« кто угодно »,« четыре »,« другой »,« недавно »,« выключен »,« когда-нибудь »,« выше »,« часто »,« здесь » , 'am', 'посредством', 'хотя', 'кто', 'должен', 'количество', 'так или иначе', 'else', 'при', 'это', 'когда', 'мы', ' мало ',' где угодно ',' будет ',' хотя ',' быть ',' заполнить ',' использовано ',' полный ',' через ',' вызов ',' после чего ',' различные ',' имеет ' , 'такой же', 'бывший', 'тогда как', 'что', 'было', 'в основном', 'на', 'иди' , 'мог', 'себя', 'тем временем', 'за пределами', 'рядом', 'наш', 'сторона', 'наш', 'пять', 'никто', 'сама', 'есть', ' всегда ',' они ',' здесь ',' одиннадцать ',' пятьдесят ',' следовательно ',' ничто ',' не ',' мельница ',' без ',' откуда ',' получить ',' куда ' , 'then', 'no', 'own', 'many', 'something', 'и т. д.,' make ',' from ',' против ',' ltd ',' next ',' afterwards ',' за исключением ',' в то время как ',' тонкий ',' заранее ',' по ',' среди ',' ты ',' третий ',' как ',' те ',' сделано ',' становясь ',' скажи ' , 'либо', 'не', 'двадцать', 'его', 'еще', 'последний', 'как-то', 'есть', 'эти', 'мой', 'под', 'взять', ' чьи ',' другие ',' сверх ',' возможно ',' отсюда ',' делает ',' где ',' два ',' всегда ',' твой ',' где бы ',' стал ',' который ' , 'о', 'но', 'по направлению', 'еще', 'скорее', 'вполне', 'ли', 'где-то', 'мог бы', 'делать', 'дно', 'до', ' км ',' твой ',' серьезный ',' найти ',' пожалуйста ',' hasnt ',' иначе ',' шесть ',' навстречу ',' иногда ',' из ',' пятнадцать ',' например ' , 'просто', 'а', 'я', 'описать', 'почему', 'ан', 'и', 'может', 'внутри', 'кг', 'против', 'ре', 'тем не менее', 'через', 'очень', 'так или иначе', 'вниз', 'нигде', 'сейчас', 'это', 'не могу', 'де', 'двигаться', 'настоящим', 'как ',' найдено ',' кем ',' были ',' вместе ',' снова ',' кроме того ',' первый ',' никогда ',' ниже ',' между ',' компьютер ',' десять ', 'в', 'видеть', 'везде', 'там', 'ни', 'каждый', 'не мог', 'вверх', 'несколько', 'то', 'я', 'становится', 'не ',' ie ',' был ',' после чего ',' казалось ',' большинство ',' никто ',' целое ',' должен ',' не может ',' за ',' мой ',' тем самым ', 'так', 'он', 'имя', 'со', 'его', 'все', 'если', 'стать', 'толстый', 'таким образом', 'в отношении', 'не', 'дать ',' все ',' показать ',' любой ',' используя ',' дальше ',' дальше ',' вокруг ',' назад ',' минимум ',' с ',' любой ',' один раз ', 'может', 'счет', 'в дальнейшем', 'быть', 'кажется', 'их', 'я', 'девять', 'также', 'система', 'в', 'больше', 'из ',' двенадцать ',' там ',' почти ',' кроме ',' последний ',' сделал ',' что-то ',' кроме ',' через ',' всякий раз, когда ',' ранее ',' плакать ', 'один', 'сто', 'шестьдесят', 'после', 'колодец', 'они', 'а именно', 'пустой', 'три', 'даже', 'вдоль', 'потому что', 'ou rself ',' such ',' top ',' due ',' inc ',' сами '})
Вы можете видеть, что набор стоп-слов по умолчанию в Gensim намного более детализирован по сравнению с NLTK.Кроме того, Gensim сохраняет стоп-слова по умолчанию в объекте замороженного набора.
Добавление стоп-слов в список стоп-слов Gensim по умолчанию
Чтобы получить доступ к списку стоп-слов Gensim, вам необходимо импортировать замороженный набор STOPWORDS
из пакета gensim.parsing.preprocessong
. Замороженный набор в Python - это неизменяемый тип набора. Вы не можете добавлять или удалять элементы в замороженном наборе. Следовательно, чтобы добавить элемент, вы должны применить функцию union
к замороженному набору и передать ему набор новых стоп-слов.Метод union
вернет новый набор, содержащий недавно добавленные стоп-слова, как показано ниже.
Следующий скрипт добавляет лайков
и play
в список стоп-слов в Gensim:
из gensim.parsing.preprocessing import STOPWORDS
all_stopwords_gensim = STOPWORDS.union (set (['нравится', 'играть']))
text = "Ник любит играть в футбол, но не слишком любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords_gensim]
печать (tokens_without_sw)
Выход:
['Ник', 'футбол', ',', 'любящий', 'теннис', '.']
Из вышеприведенного вывода видно, что слова , такие как
и play
, были обработаны как стоп-слова и, следовательно, были удалены из входного предложения.
Удаление стоп-слов из списка стоп-слов Gensim по умолчанию
Чтобы удалить стоп-слова из списка стоп-слов Gensim, вы должны вызвать метод difference ()
для объекта замороженного набора, который содержит список стоп-слов. Вам необходимо передать набор стоп-слов, которые вы хотите удалить из замороженного набора, в метод difference ()
.Метод difference ()
возвращает набор, который содержит все стоп-слова , кроме , переданных методу difference ()
.
Следующий скрипт удаляет слово , а не
из набора стоп-слов в Gensim:
из gensim.parsing.preprocessing import STOPWORDS
all_stopwords_gensim = СЛОВА
sw_list = {"не"}
all_stopwords_gensim = STOPWORDS.difference (sw_list)
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords_gensim]
печать (tokens_without_sw)
Выход:
['Ник', 'нравится', 'играть', 'футбол', ',', 'не', 'любить', 'теннис', '.']
Поскольку слово , а не
было удалено из набора стоп-слов, вы можете видеть, что оно не было удалено из входного предложения после удаления стоп-слова.
Использование библиотеки SpaCy
Библиотека SpaCy в Python - еще один чрезвычайно полезный язык для обработки естественного языка в Python.
Чтобы установить SpaCy, вы должны выполнить следующий скрипт на вашем командном терминале:
$ pip install -U spacy
После загрузки библиотеки вам также необходимо загрузить языковую модель. В SpaCy существует несколько моделей для разных языков. Мы будем устанавливать англоязычную модель. Выполните в своем терминале следующую команду:
$ python -m spacy загрузить ru
После загрузки языковой модели вы можете удалить стоп-слова из текста с помощью SpaCy.Посмотрите на следующий сценарий:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
text = "Ник любит играть в футбол, но не слишком любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
В приведенном выше сценарии мы сначала загружаем языковую модель и сохраняем ее в переменной sp
. sp.Default.stop_words
- это набор стоп-слов по умолчанию для модели английского языка в SpaCy.Затем мы просто перебираем каждое слово во входном тексте, и если слово существует в наборе стоп-слов языковой модели SpaCy, слово удаляется.
Вот результат:
Выход:
['Ник', 'лайки', 'играть', 'футбол', ',', 'любить', 'теннис', '.']
Добавление и удаление стоп-слов в списке стоп-слов SpaCy по умолчанию
Как и другие библиотеки NLP, вы также можете добавлять или удалять стоп-слова из списка стоп-слов по умолчанию в Spacy.Но перед этим мы увидим список всех существующих стоп-слов в SpaCy.
печать (len (all_stopwords))
печать (all_stopwords)
Выход:
326
{'откуда', 'здесь', 'показать', 'были', 'почему', 'нет', 'то', 'после чего', 'не', 'больше', 'как', 'восемь' , 'действительно', 'я', 'только', 'через', 'девять', 'ре', 'себя', 'почти', 'до', 'уже', 'спереди', 'минимум', ' становится ',' тем самым ',' делаю ',' она ',' вместе ',' быть ',' часто ',' тогда ',' довольно ',' меньше ',' много ',' они ',' мы ' , 'take', 'its', 'yours', 'each', 'would', 'may', а именно ',' do ',' who ',' ли ',' сторона ',' оба ',' what ',' между ',' в сторону ',' наш ',' посредством чего ', "m",' ранее ',' я ',' имел ',' действительно ',' call ',' keep ', "' re ", 'после этого', 'can', 'их', 'одиннадцать', 'm', 'даже', 'около', 'двадцать', 'в основном', 'сделал', 'в', 'и ',' кажется ',' серьезным ',' против ', "нет",' за исключением ',' имеет ',' пять ',' он ',' последний ',' 'ве', 'потому что', ' мы ',' сам ',' еще ',' что-то ',' как-то ',' м ',' навстречу ',' его ',' шесть ',' где угодно ',' нас ',' д ',' через ',' таким образом ',' который ',' все ',' стать ',' здесь ',' один ',' в ',' хотя ',' когда-нибудь ',' давать ',' не могу ',' кроме ' , "поперек", "никто", "когда-либо", "то", "ове" r ',' среди ',' во время ',' однако ',' когда ',' иногда ',' еще ',' казалось ',' получить ', "ве",' его ',' с ',' часть ',' за пределами ',' все ',' тот же ',' этот ',' недавно ',' нет ',' в отношении ',' в другом месте ',' другие ',' кроме того ',' еще ',' назад ', «один», «где-то», «есть», «будет», «заранее», «десять», «очень», «большинство», «три», «бывший», «ре», «иначе», « несколько ',' также ',' что угодно ',' есть ',' становлюсь ',' рядом ',' s ',' ничто ',' некоторые ',' с ',' оттуда ',' так или иначе ',' вне ',' вверх ',' хорошо ',' оно ',' различное ',' четыре ',' верх ',' 's', 'чем', 'под', 'мог бы', 'мог', 'по' , 'too', 'and', 'who', '' ll ',' say ',' поэтому ', "s",' other ',' во всем ',' стал ',' your ',' put ' , 'per', '' ll ',' пятнадцать ',' must ',' before ',' when ',' any ',' без ',' does ',' was ',' where ',' after after ', «d», «другой», «сами», «n't», «видеть», «идти», «куда угодно», «просто», «кажущийся», «отсюда», «полный», «после этого» , 'дно', 'целое', 'собственное', 'пусто', 'причитающееся', 'позади', 'пока', 'на', 'при этом', 'выключено', 'снова', 'а', ' два ',' абов e ',' там ',' шестьдесят ',' те ',' тогда как ',' использующий ',' последний ',' использовал ',' мой ',' сама ',' ее 'или', 'ни один' , 'сорок', 'после', 'сейчас', 'после', 'себя', 'куда', 'скорее', 'однажды', 'от', 'до', 'что угодно', 'несколько', ' в ',' такой ',' быть ',' сделать ',' мой ',' пожалуйста ',' вдоль ',' сотню ',' следует ',' ниже ',' третий ',' если ',' на ' , «возможно», «наш», «но», «никогда», «кто угодно», «пятьдесят», «любой», «все», «никто», «там», «иметь», «так или иначе», из ',' казаться ',' вниз ',' есть ',' каждый ',' 'будет', 'много', 'ни один', 'дальше', 'я', 'кто', 'тем не менее', 'около ',' везде ',' имя ',' достаточно ',' 'd', 'следующий', 'пока', 'хотя', 'через', 'на', 'первый', 'был', 'настоящим' , 'если', 'двигаться', 'так', 'либо', 'среди', 'для', 'двенадцать', 'ни', 'она', 'всегда', 'эти', 'как', ' 've', 'amount', 're', 'кто-то', 'потом', 'ты', 'нигде', 'сам', 'готово', 'в дальнейшем', 'внутри', 'сделано', ' ca ',' они '}
Выходные данные показывают, что в списке стоп-слов по умолчанию в библиотеке SpaCy содержится 326 стоп-слов.
Добавление стоп-слов в список стоп-слов SpaCy по умолчанию
Список стоп-слов SpaCy в основном представляет собой набор строк. Вы можете добавить новое слово в набор, как если бы вы добавляли любой новый элемент в набор.
Посмотрите на следующий скрипт, в котором мы добавляем слово tennis
к существующему списку стоп-слов в Spacy:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords.add ("теннис")
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'лайки', 'играть', 'футбол', ',', 'любить', '.']
Выходные данные показывают, что слово теннис
было удалено из входного предложения.
Вы также можете добавить несколько слов в список стоп-слов в SpaCy, как показано ниже. Следующий скрипт добавляет лайков
и тенниса
в список стоп-слов в SpaCy:
импорт просторный
sp = простор.загрузка ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords | = {"любит", "теннис",}
text = "Ник любит играть в футбол, но не слишком любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'играть', 'футбол', ',', 'любить', '.']
Вывод показывает, что слова любит
и теннис
были удалены из входного предложения.
Удаление стоп-слов из списка стоп-слов SpaCy по умолчанию
Чтобы удалить слово из набора стоп-слов в SpaCy, вы можете передать слово для удаления методу remove
набора.
Следующий скрипт удаляет слово , а не
из набора стоп-слов в SpaCy:
импорт просторный
sp = spacy.load ('en_core_web_sm')
all_stopwords = sp.Defaults.stop_words
all_stopwords.remove ('не')
text = "Ник любит играть в футбол, но не очень любит теннис."
text_tokens = word_tokenize (текст)
tokens_without_sw = [слово в слово в text_tokens, если не слово в all_stopwords]
печать (tokens_without_sw)
Выход:
['Ник', 'играть', 'футбол', ',', 'не', 'любить', '.']
В выходных данных вы можете видеть, что слово , а не
не было удалено из входного предложения.
Использование специального сценария для удаления стоп-слов
В предыдущем разделе вы видели разные способы использования различных библиотек для удаления стоп-слов из строки в Python.Если вам нужен полный контроль над удалением стоп-слов, вы можете написать свой собственный скрипт для удаления стоп-слов из вашей строки.
Первым шагом в этом отношении является определение списка слов, которые вы хотите рассматривать как стоп-слова. Создадим список из наиболее часто используемых стоп-слов:
my_stopwords = ['я', 'я', 'мой', 'я', 'мы', 'наш', 'наш', 'мы', 'ты', "ты", "ты" ve "," вы "," вы бы ", 'ваш', 'ваш', 'себя', 'себя', 'он', 'его', 'его', 'он', 'она' , «она», «ее», «ее», «она», «это», «это», «ее», «сама», «они», «они», «их», «их», « сами ',' что ',' что ',' кто ',' кто ',' этот ',' тот ',' тот ',' эти ',' те ',' есть ',' есть ',' есть ',' был ',' был ',' быть ',' был ',' быть ',' иметь ',' иметь ',' имел ',' иметь ',' делать ',' делает ',' сделал ' , 'делание', 'а', 'ан', 'то', 'и', 'но', 'если', 'или', 'потому что', 'как', 'до', 'пока', ' of ',' at ',' by ',' for ',' with ',' about ',' против ',' between ',' into ',' through ',' во время ',' до ',' после ' , 'вверху', 'внизу', 'в', 'от', 'вверх', 'вниз', 'внутрь', 'вне', 'вкл', 'выкл', 'над', 'под', ' снова ',' далее ',' затем ',' один раз ',' здесь ',' там ',' когда ',' где ',' почему ',' как ',' все ',' любой ',' оба ' , «каждый», «несколько», «больше», «большинство», «другие», «некоторые», «такие», «нет», «ни», «не», «только», «о wn ',' same ',' so ',' than ',' too ',' very ',' s ',' t ',' can ',' will ',' just ',' не надо ', "не надо" t ", 'должен'," должен был ", 'сейчас', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', ' aren ', "не",' couldn ', "could",' didn ', "not",' doesn ', "not",' hadn ', "hadn't",' hasn ', «не имеет», «haven», «не», «isn», «не», «ma», «mightn», «could not», «mustn», «mustn» t ", 'needn'," needn ", 'shan'," shan't ", 'shouldn'," should not ", 'wasn'," not ", 'weren'," weren " t ", 'выиграл'," не будет ", 'не стал бы," не стал бы "]
Далее мы определим функцию, которая будет принимать строку в качестве параметра и возвращать предложение без стоп-слов:
def remove_mystopwords (предложение):
жетоны = предложение.расколоть(" ")
tokens_filtered = [слово в слово в text_tokens, если не слово в my_stopwords]
return ("") .join (tokens_filtered)
Давайте теперь попробуем удалить стоп-слова из образца предложения:
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть, но любит теннис.
Вы можете видеть, что стоп-слова, которые существуют в списке my_stopwords
, были удалены из входного предложения.
Поскольку my_stopwords
list - это простой список строк, вы можете добавлять в него слова или удалять их. Например, добавим слово футбол
в список my_stopwords
и снова удалим стоп-слова из входного предложения:
text = "Ник любит играть в футбол, но не очень любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть, но любит теннис.
Выходные данные теперь показывают, что слово футбол
также удалено из входного предложения, поскольку мы добавили это слово в список наших пользовательских стоп-слов.
Давайте теперь удалим слово футбол
из списка стоп-слов и снова применим удаление стоп-слова к нашему входному предложению:
my_stopwords.remove ("футбол")
text = "Ник любит играть в футбол, но не слишком любит теннис."
filter_text = remove_mystopwords (текст)
печать (отфильтрованный_текст)
Выход:
Ник любит играть в футбол, но любит теннис.
Слово футбол
не было удалено, так как мы удалили его из нашего списка стоп-слов.
Заключение
В этой статье вы видели различные библиотеки, которые можно использовать для удаления стоп-слов из строки в Python. Вы также увидели, как добавлять или удалять стоп-слова из списков стоп-слов по умолчанию, предоставляемых различными библиотеками. В конце мы показали, как это можно сделать, если у вас есть собственный скрипт для удаления стоп-слов.
стоп-слов Google: стоит ли их удалять для SEO?
В выпуске серии Mediavine SEO на этой неделе мы просим вас на несколько минут прекратить то, что вы делаете, и подумать о нескольких сотнях слов о стоп-словах.
Ужасно несмешные вступления, что это вообще значит?
Что такое стоп-слова?
В компьютерном алгоритме стоп-слова - это слова, которые вы удаляете перед отправкой текста на обработку. Общие слова, например: a , an , the, what .
Идея, лежащая в основе концепции стоп-слов, заключается в том, что это не ключевые слова и не предоставляют полезную информацию или контекст для поисковых систем.
Как и в повседневной речи, эти стоп-слова популярны в Интернете - они составляют примерно 25% содержимого Интернета.
Отфильтровав их, Google может сократить размер Интернета на четверть. Как они это делают и что это меняет?
Как Google фильтрует стоп-слова
Если вы хотите увидеть стоп-слова в действии, не ищите ничего, кроме строки поиска Google.
Примечание. Как мы обсуждали в нашем сообщении об исследовании ключевых слов, не забудьте перейти в инкогнито перед просмотром, чтобы увидеть результаты, как это делает обычная публика.
Воспользуйтесь моим популярным, восхитительным примером SEO и Google рецептом чизкейка.Но вместо того, чтобы просто набирать «рецепт чизкейка», добавьте впереди букву «а».
Эта буква «а» не меняет смысла или намерений пользователя при поиске, поскольку читатель в любом случае ищет особый рецепт чизкейка.
Вы увидите почти идентичные результаты поиска, потому что, по всей вероятности, Google отфильтровал «а» и вернул те же результаты.
Все это имеет смысл, но что касается ведения блогов и того, что такое SEO с вашей точки зрения, стоит ли вам беспокоиться о стоп-словах?
Стоп-слова и SEO
Если вы связаны с сообществом SEO или знакомы с такими инструментами SEO, как Yoast, возможно, вы уже читали о стоп-словах раньше.
Например, Yoast использовался для автоматического удаления стоп-слов из ярлыков отдельных сообщений или постоянных ссылок на определенных страницах.
Общий совет сообщества SEO - удалить стоп-слова в важных областях страницы с ограниченным пространством.
Например, в таких областях, как заголовок страницы, мета-описание и URL-адрес, вы ограничены в том, сколько Google будет проиндексировать для каждой из них.
Возьмем, к примеру, заголовок страницы. Google обычно отображает только 50-60 символов, поэтому рекомендуется, чтобы ваши ключевые слова появлялись в первых 50-60 символах или, что еще лучше, чтобы ограничить полное название такой длиной.
Вы можете сказать, куда мы идем с этим; 50-60 символов - это немного, и многие заголовки содержат стоп-слова.
Удаление стоп-слов освобождает больше места для ключевых слов и / или дает возможность улучшить плотность ключевых слов на вашей странице, заметность и соответствие вашей ключевой фразе.
Это также помогает улучшить вашу близость ключевых слов, что дает вам еще больший выигрыш.
(Подробнее об этих причудливых терминах SEO позже.)
Та же логика применяется к метаописаниям и URL-адресам, где Google индексирует только определенный объем текста.Вы с умом используете свой текст?
Вы хотите, чтобы ключевые слова индексации Google в этой ограниченной, ценной недвижимости или стоп-слова все равно будут отфильтрованы?
Список можно продолжить. Отдельные заголовки, подзаголовки и даже сам текст вашей статьи - помните, мы говорим о 25% всех слов - можно было бы изучить таким образом, если вы действительно погрузитесь в него.
Вопрос в том, стоит ли оно того, и мой ответ аналогичен множеству советов, которые вы прочитаете в блоге Mediavine:
Не подчеркивайте .
Следует ли исключать стоп-слова из заголовков страниц, метаописаний, URL-адресов и сообщений?
Когда я говорю «не нервничаю», я не имею в виду, что все равно. Просто в основном.
Не зацикливайтесь на стоп-словах за счет более важных факторов SEO, таких как внутренние ссылки и заголовки страниц (подробнее об этом чуть позже), не говоря уже о том, что вы тратите время на создание контента.
Тем не менее, есть некоторая законность в том, чтобы держать вещи короткими и чистыми.
Вы заметите, что мы делаем URL-адреса короткими (см. Эту самую страницу), удаляем даже стоп-слова и большинство других слов.URL-адреса не обязательно должны быть грамматически правильными, они должны быть настолько эффективными и краткими, насколько вы можете их составить.
Я дам стоп-слова полиции. Однако эта философия неприменима к вашему сообщению и заголовку, который всегда должен быть грамматически правильным и понятным как для Google, так и для ваших читателей.
Не жертвуйте удобочитаемостью ради теоретического SEO
Я бы сказал, что для любого сайта удобочитаемость и хорошо написанный контент важнее, чем советы экспертов по SEO.
Например, когда дело доходит до заголовка страницы, удаление стоп-слов, скорее всего, доставит больше хлопот, чем пользы.
Заголовок вашей страницы - это САМЫЙ важный аспект SEO на странице, который у вас есть, как с точки зрения результатов поиска, так и с точки зрения первого впечатления потенциальных пользователей о вашем сайте и его содержании на странице результатов.
Подумайте об этом так: пользователи не будут хорошо реагировать на результаты поиска, содержащие бессвязные английские фрагменты, которые вы собрали вместе, чтобы удалить стоп-слова.Не могли бы вы?
Алгоритмы Google мощны, как и ваша человеческая аудитория, которая будет определять ваш рейтинг кликов и, следовательно, ваш трафик на основе этого важного первого впечатления.
Кроме того, переборщение с удалением стоп-слов потенциально может повредить SEO само по себе.
Google теперь понимает стоп-слова в контексте!
Постойте, а как насчет моего примера вверху поста ?!
Технологии Google постоянно совершенствуются, и одним из многих примеров этого является «Обработка естественного языка»,
Короче говоря, компьютеры теперь могут читать и анализировать текст, чтобы понимать язык, а не просто разбирать ключевые слова.
Когда Google анонсировал свое недавнее обновление, BERT, он сделал это с подробным анализом запроса с использованием стоп-слов.
Пример «Путешественнику из Бразилии в США в 2019 году нужна виза» указывает на то, что «в» было ключевым компонентом этой фразы.
Им нужно было знать направление, и они его получили.
«Кому» - это классическое стоп-слово, но если вы удалите его из заголовка страницы и публикации при использовании ключевого слова focus, вы законно снизите свои шансы на ранжирование этого контента.
Вот почему мы рекомендуем, чтобы если стоп-слова были полезны вашему читателю, Google, вероятно, это выяснит.
С точки зрения создателя контента, предоставьте читателю - и роботам - решать, удалять их или нет.
Общие стоп-слова
Мы составили инфографику общих стоп-слов. Это ни в коем случае не исчерпывающий список, и, опять же, не о чем беспокоиться.
Источник: Список стоп-слов от ShoutMeLoud
Не пропустите нашу следующую публикацию из этой серии о известности ключевых слов или наш большой список ресурсов SEO, если хотите узнать больше.
обрабатывают запрещающие слова по-разному в зависимости от вашей задачи НЛП | by Xu LIANG
Отрицательные слова (not, nor, never) считаются стоп-словами в NLTK, spacy и sklearn, но мы должны уделять особое внимание, основываясь на задаче NLP
Фотография Хосе Арагонеса на Unsplash
Недавно я работаю над проект извлечения отношений (RE). Но я заметил, что некоторые популярные инструменты НЛП, NLTK, spacy и sklearn, рассматривают отрицательные слова как стоп-слова. Если я удалю эти отрицательные слова как стоп-слова, это вызовет плохой эффект при обнаружении реальных отношений между двумя объектами.Поэтому я пишу этот пост для всех, кто сталкивается с той же проблемой.
В вычислениях стоп-слова - это слова, которые отфильтровываются до или после обработки данных естественного языка (текста). Стоп-слова - это обычно самых распространенных слова в языке.
Мы видим, что это определение дано с точки зрения статистики. Но это ограничивается отрицательными словами в некоторых задачах НЛП.
В задаче RE было доказано, что Shortest Dependency Path (SDP) между двумя объектами является эффективным для извлечения наиболее важной информации для определения связи между двумя объектами.
Ниже приведен пример, который я взял из статьи: Свертка графа по сокращенным деревьям зависимостей улучшает извлечение отношений.
В этом примере SDP - это [«он», «родственник», «Тростник», «Майк»]
. Прогнозируемое отношение: per: other_family
. Но настоящая метка - no_relation
. Поскольку , а не
, не входит в SDP, а , а не
, указывает на отсутствие связи между he
и Cane Mike
.
Мы видим, что , а не
- важное контекстное слово, которое напрямую влияет на суждение об отношениях между двумя объектами.Мы не можем просто удалить , а не
как обычные стоп-слова.
Это зависит от того, какую задачу НЛП мы хотим решить. Если ваш проект очень маленький, вам нужна только функция статистики, такая как мешок слов, tf-idf, вы можете удалить отрицательные слова как стоп-слова.
Если ваша задача НЛП контекстно-релевантна, например, анализ настроений, мы должны оставить отрицательные слова. Я рекомендую настроить список игнорируемых слов в соответствии с задачей НЛП. Одним из примеров может быть корпус отрицания Twitter.Объяснение подхода приведено в этой статье
Если ваша задача НЛП сильно зависит от контекста, я рекомендую использовать модели контекстуализатора, такие как ELMo, ULMFiT, BERT, XLNet. В таких моделях сохраняются все стоп-слова, чтобы предоставить достаточно контекстной информации.
Ознакомьтесь с моими другими сообщениями на Medium с в виде по категориям !
GitHub: BrambleXu
LinkedIn: Xu Liang
Блог: BrambleXu
Руководство по списку слова, которые поисковые системы могут игнорировать как в поисковых запросах, так и в результатах поиска.
Слова вроде - , - или - .
Они известны как стоп-слова и обычно представляют собой артикли, предлоги, союзы или местоимения. Они не меняют смысла запроса и используются при написании контента для правильной структурирования предложений.
Вам не придется далеко ходить, чтобы найти заголовки страниц, теги заголовков или даже основной текст, где отсутствуют стоп-слова.
Хотите увидеть пример? Взгляните на эти два поисковых запроса:
Рестораны в Бруклине
Рестораны Бруклин
В данном случае в - стоп-слово.Но удалите его, и контекстный смысл запроса не изменится.
Однако, если вы напишете в своем контенте «Restaurants Brooklyn», без них он будет плохо читаться. Вы не стали бы писать содержание в полных предложениях без ключевых слов, которые связывают все воедино.
Оптимизаторы поисковых систем не должны тратить время на то, чтобы слишком беспокоиться о стоп-словах или пытаться выяснить, следует ли им удалять их из любого места на своем веб-сайте.
В этом посте мы углубимся в стоп-слова и рассмотрим:
Как уже обсуждалось, стоп-слова - это общие слова, такие как статьи, предлоги, союзы и местоимения, которые поисковые системы могут игнорировать.Такие слова, как the, in или a.
Концепция стоп-слов была впервые предложена Хансом Петером Луном, одним из пионеров в области поиска информации.
Но насколько вам нужно беспокоиться о стоп-словах, как оптимизатору поисковых систем? И как тот факт, что поисковые системы игнорируют это, должен изменить ваш подход к созданию и оптимизации контента?
Стоп-слова, используемые поисковыми системами для ускорения сканирования и индексации с целью экономии места для хранения. Они игнорировались как в поисковых запросах, так и в результатах поиска.
Эти слова не имеют ничего общего с содержанием на уровне контекста, и их удаление не меняет общего значения текста.
Однако, что не означает, что вы должны удалить стоп-слова из своего контента. Ниже мы рассмотрим, как следует и не следует использовать стоп-слова при оптимизации сайта.
Вот что Билл Славски говорит о стоп-словах и о том, как Google (может) относиться к ним:
Возможно, Google продолжает использовать стоп-слова, но они относятся к ним иначе, чем в прошлом, признавая, что некоторые из них имеют смысл .Впервые я написал о них в 2008 году: https: //t.co/ySZayYZCkm
Вероятно, неплохо было бы объяснить это или удалить такие списки.- Билл Славски ⚓ (@bill_slawski) 6 февраля 2021 г.
Стоп-слова иногда могут иметь большое влияние на поисковую выдачу. Дон Андерсон указывает на отличный пример того, как одно слово, в данном случае слово «the», может изменить всю поисковую выдачу:
Подозреваю, что многое из этого изменилось еще больше с появлением контекстного естественного языка ML. Многие из этих «стоп-слов» - это клей, скрепляющий контекст.Кроме того, «Кто» - это не то же самое, что «кто», так что, несомненно, все неиспользованные стоп-слова, вероятно, устарели
- Дон Андерсон (@dawnieando) 6 февраля 2021 г.
Dawn также предоставила дополнительные доказательства того, что поисковые системы не используют стоп-листы, сославшись на это исследование из Стэндфорда и процитировав:
Общая тенденция в IR-системах с течением времени была связана со стандартным использованием довольно больших стоп-листов (200-300 терминов). в очень маленькие стоп-листы (7-12 терминов), в какие-либо стоп-листы.Системы веб-поиска обычно не используют стоп-листы.
Далее она привела и другие примеры:
Еще из этого отрывка: «Фраза-запрос« Президент Соединенных Штатов », содержащая два стоп-слова, более точна, чем« Президент »И« Соединенные Штаты. ''. Значение полетов в Лондон, вероятно, будет потеряно, если слово «to» будет исключено ».
- Дон Андерсон (@dawnieando) 8 февраля 2021 г.
Вообще говоря, поисковые системы используют стоп-слова, чтобы лучше понять контекст поиска, поскольку они могут сильно повлиять на то, что представляется пользователям.
Теперь, когда мы обсудили, что такое стоп-слова в SEO, давайте посмотрим, как эффективно их использовать в различных аспектах вашего URL-адреса, заголовков страниц и контента.
Стоп-слова в URL-адресах уже много лет обсуждаются в SEO-сообществе, но не стоит слишком об этом беспокоиться.
Если ваш сайт работает на WordPress и вы используете плагин Yoast SEO, вы, вероятно, помните, что видели рекомендации по удалению стоп-слов из URL вашей страницы.
CMS или веб-мастер нередко используют заголовок или заголовок страницы для создания слага страницы.Это может привести к получению длинных URL-адресов.
Вы можете ознакомиться с нашим руководством по созданию оптимизированных для SEO URL. Мы обсуждаем сокращение или оптимизацию, где это возможно, чтобы URL-адреса были легкими для чтения и содержательными.
Однако, если вам необходимо сократить длинный URL-адрес, вы можете рассмотреть возможность удаления стоп-слов, если они не влияют на контекст. По мнению Google, они рекомендуют сохранять простую структуру URL.
В поисковой выдаче много заголовков и тегов заголовков, в которых отсутствуют стоп-слова.Однако, на наш взгляд, вы должны оставить их на месте.
Теги заголовков используются не только поисковыми системами. Они показывают в поисковой выдаче:
Представьте, что в приведенном выше примере есть тег заголовка без стоп-слов. Он читался как «Лучшие шоу фильмов, транслируемых HBO Max - Разнообразие». Удаление стоп-слов делает его неудобным для чтения, и становится очевидным, что часть заголовка отсутствует.
Когда элемент виден пользователям и используется для принятия решения, нажимать ли (или оставаться на ней) вашу страницу, вы всегда должны отдавать предпочтение опыту пользователей.
Это простой:
Вы, , никогда не должны удалять стоп-слова из содержимого вашего тела ; это сделало бы его совершенно нечитаемым. Вы должны ставить своих пользователей на первое место и никогда не жертвовать их опытом ради того, как, по вашему мнению, поисковая система может просматривать ваш контент.
Реальность такова, что большинство маркетологов не должны беспокоиться о стоп-словах. Понимая, что они из себя представляют и как их обрабатывают поисковые системы, вы лучше подготовитесь к тому, чтобы принимать правильные решения относительно их использования.
Игнорируйте советы по удалению их из заголовков и заголовков, так как это может нанести вред пользователю, но рассмотрите возможность исключения их из URL-адресов страниц, если вам нужно их сократить и это не меняет контекст.
Всегда ставьте своих пользователей на первое место, и вы обычно обнаружите, что это также лучший вариант для поисковых систем.
Не существует единого универсального списка стоп-слов, но мы составили исчерпывающий список из более чем 175.
Используйте его в качестве ориентира при оптимизации вашего сайта и понимании того, как поисковые системы могут обрабатывать эти слова.
A | a как |
B | было |
C 9400005 может мог | |
D | сделал |
E | каждый либо либо еще |
несколько | |
H | было |
я | я |
J | просто |
L | давайте |
M я | |
N | ни |
O | из сами |
S | то же |
T 90 | , чем |
U | и er |
V | очень |
W | было |
Y | да |
Начни бесплатно Пробная версия с Semrush
Find Keyword Insights и многое другое!
.
Добавить комментарий