"Стоп слова" список для английского языка? [закрытый]

Question

"Стоп слова" список для английского языка? [закрытый]

я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".

где я могу найти списки этих неинтересных слов?
является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?

update: они, по-видимому, называются "стоп-слова", а не"пропустить слова".

20

filtering indexing language-agnostic nlp stop-words

автор: Mark Harrison

6 ответов

автор: Thomas · Accepted Answer · 2009-08-02 07:23:54

волшебное слово, чтобы положить в Google "стоп-слова". Это оказывается разумно выглядящий список.

MySQL также имеет встроенный список стоп-слов, но это слишком всеобъемлющее на мой вкус. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считается стоп-слово.

автор: Ahmed Said · Accepted Answer · 2009-08-02 07:23:01

Это называется стоп-слов, проверьте этот пример

5

автор: Ahmed Said

автор: hashable · Accepted Answer · 2012-11-04 18:51:40

в зависимости от поддомена английского языка, в котором вы работаете, вы можете/хотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например. Слово "есть" на самом деле может быть аббревиатура / аббревиатура в некотором домене. И наоборот, вы можете игнорировать некоторые доменные слова в зависимости от вашего приложения который вы не можете игнорировать в области общего английского языка. Например. Если вы анализируете корпус больницы отчеты, вы можете игнорировать такие слова, как "история" и "симптомы", поскольку они будут найдены в каждом отчете и могут быть бесполезны (с точки зрения простого перевернутого индекса ванили).

в противном случае списки, возвращенные Google, должны быть в порядке. Носильщик Стеммер!--7-->использует и реализация двигателя Lucene seach использует.

автор: Sean A.O. Harney · Accepted Answer · 2009-08-02 07:24:59

получить статистику о частоте слов в больших корпусах txt. Игнорируйте все слова с частотой > некоторое число.

автор: Robert Petermeier · Accepted Answer · 2009-08-02 07:59:08

Я думаю, что использовал список стоп-слов для немецкого языка из здесь когда я построил приложение поиска с lucene.net некоторое время назад. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те, которые проект lucene использует по умолчанию.

автор: monksy · Accepted Answer · 2009-10-30 22:17:23

обычно эти слова появляются в документах с наибольшей частотой. Если у вас есть глобальный список слов:

{ Word Count }

со списком слов, если вы упорядочили слова от самого высокого количества до самого низкого, у вас будет график (count (y axis) и word (x axis), который является обратной функцией журнала. Все стоп-слова будут слева, а точка остановки "стоп-слов" будет там, где существует самая высокая 1-я производная.

этот решение лучше, чем попытка словаря:

это решение является универсальным подходом, который не связан языком
эта попытка узнает, какие слова считаются "стоп-слов"
эта попытка даст лучшие результаты для коллекций, которые очень похожи, и производят уникальные списки слов для элементов в коллекциях
стоп-слова могут быть пересчитаны позже (при этом может быть кэширование и статистическое определение того, что стоп-слова, возможно, изменились с момента их расчета)
это также может устранить временные или неофициальные слова и имена (например, сленг, или если у вас была куча документов, которые имели название компании в качестве заголовка)

попытка словаря лучше:

время поиска намного быстрее
результаты precached
его простой
некоторые другие придумали стоп-слова.