Добавление слов в стоп-лист Scikit-learn CountVectorizer

Question

Добавление слов в стоп-лист Scikit-learn CountVectorizer

пакет scikit-узнать CountVectorizer класс позволяет передать строку "английский" в аргумент stop_words. Я хочу добавить некоторые вещи в этот предопределенный список. Кто-нибудь может сказать мне, как это сделать?

18

python scikit-learn stop-words

автор: panterasBox

1 ответов

автор: jonrsharpe · Accepted Answer · 2014-06-27 09:42:45

по словам исходный код на sklearn.feature_extraction.text полный список (на самом деле frozenset С stop_words) of ENGLISH_STOP_WORDS через __all__. Поэтому, если вы хотите использовать этот список плюс еще несколько элементов, вы можете сделать что-то вроде:

from sklearn.feature_extraction import text 

stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)

(где my_additional_stop_words - любая последовательность строк) и используйте результат как