"Стоп слова" список для английского языка? [закрытый]

я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".

  • где я могу найти списки этих неинтересных слов?
  • является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?

update: они, по-видимому, называются "стоп-слова", а не"пропустить слова".

6 ответов


волшебное слово, чтобы положить в Google "стоп-слова". Это оказывается разумно выглядящий список.

MySQL также имеет встроенный список стоп-слов, но это слишком всеобъемлющее на мой вкус. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считается стоп-слово.


Это называется стоп-слов, проверьте этот пример


в зависимости от поддомена английского языка, в котором вы работаете, вы можете/хотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например. Слово "есть" на самом деле может быть аббревиатура / аббревиатура в некотором домене. И наоборот, вы можете игнорировать некоторые доменные слова в зависимости от вашего приложения который вы не можете игнорировать в области общего английского языка. Например. Если вы анализируете корпус больницы отчеты, вы можете игнорировать такие слова, как "история" и "симптомы", поскольку они будут найдены в каждом отчете и могут быть бесполезны (с точки зрения простого перевернутого индекса ванили).

в противном случае списки, возвращенные Google, должны быть в порядке. Носильщик Стеммер!--7-->использует и реализация двигателя Lucene seach использует.


получить статистику о частоте слов в больших корпусах txt. Игнорируйте все слова с частотой > некоторое число.


Я думаю, что использовал список стоп-слов для немецкого языка из здесь когда я построил приложение поиска с lucene.net некоторое время назад. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те, которые проект lucene использует по умолчанию.


обычно эти слова появляются в документах с наибольшей частотой. Если у вас есть глобальный список слов:

{ Word Count }

со списком слов, если вы упорядочили слова от самого высокого количества до самого низкого, у вас будет график (count (y axis) и word (x axis), который является обратной функцией журнала. Все стоп-слова будут слева, а точка остановки "стоп-слов" будет там, где существует самая высокая 1-я производная.

этот решение лучше, чем попытка словаря:

  • это решение является универсальным подходом, который не связан языком
  • эта попытка узнает, какие слова считаются "стоп-слов"
  • эта попытка даст лучшие результаты для коллекций, которые очень похожи, и производят уникальные списки слов для элементов в коллекциях
  • стоп-слова могут быть пересчитаны позже (при этом может быть кэширование и статистическое определение того, что стоп-слова, возможно, изменились с момента их расчета)
  • это также может устранить временные или неофициальные слова и имена (например, сленг, или если у вас была куча документов, которые имели название компании в качестве заголовка)

попытка словаря лучше:

  • время поиска намного быстрее
  • результаты precached
  • его простой
  • некоторые другие придумали стоп-слова.