"Стоп слова" список для английского языка? [закрытый]
я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".
- где я могу найти списки этих неинтересных слов?
- является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?
update: они, по-видимому, называются "стоп-слова", а не"пропустить слова".
6 ответов
волшебное слово, чтобы положить в Google "стоп-слова". Это оказывается разумно выглядящий список.
MySQL также имеет встроенный список стоп-слов, но это слишком всеобъемлющее на мой вкус. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считается стоп-слово.
в зависимости от поддомена английского языка, в котором вы работаете, вы можете/хотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут иметь значение в домене. Например. Слово "есть" на самом деле может быть аббревиатура / аббревиатура в некотором домене. И наоборот, вы можете игнорировать некоторые доменные слова в зависимости от вашего приложения который вы не можете игнорировать в области общего английского языка. Например. Если вы анализируете корпус больницы отчеты, вы можете игнорировать такие слова, как "история" и "симптомы", поскольку они будут найдены в каждом отчете и могут быть бесполезны (с точки зрения простого перевернутого индекса ванили).
в противном случае списки, возвращенные Google, должны быть в порядке. Носильщик Стеммер!--7-->использует и реализация двигателя Lucene seach использует.
получить статистику о частоте слов в больших корпусах txt. Игнорируйте все слова с частотой > некоторое число.
Я думаю, что использовал список стоп-слов для немецкого языка из здесь когда я построил приложение поиска с lucene.net некоторое время назад. Сайт также содержит список для английского языка, и списки на сайте, по-видимому, те, которые проект lucene использует по умолчанию.
обычно эти слова появляются в документах с наибольшей частотой. Если у вас есть глобальный список слов:
{ Word Count }
со списком слов, если вы упорядочили слова от самого высокого количества до самого низкого, у вас будет график (count (y axis) и word (x axis), который является обратной функцией журнала. Все стоп-слова будут слева, а точка остановки "стоп-слов" будет там, где существует самая высокая 1-я производная.
этот решение лучше, чем попытка словаря:
- это решение является универсальным подходом, который не связан языком
- эта попытка узнает, какие слова считаются "стоп-слов"
- эта попытка даст лучшие результаты для коллекций, которые очень похожи, и производят уникальные списки слов для элементов в коллекциях
- стоп-слова могут быть пересчитаны позже (при этом может быть кэширование и статистическое определение того, что стоп-слова, возможно, изменились с момента их расчета)
- это также может устранить временные или неофициальные слова и имена (например, сленг, или если у вас была куча документов, которые имели название компании в качестве заголовка)
попытка словаря лучше:
- время поиска намного быстрее
- результаты precached
- его простой
- некоторые другие придумали стоп-слова.