Добавление слов в стоп-лист Scikit-learn CountVectorizer
пакет scikit-узнать CountVectorizer класс позволяет передать строку "английский" в аргумент stop_words. Я хочу добавить некоторые вещи в этот предопределенный список. Кто-нибудь может сказать мне, как это сделать?
1 ответов
по словам исходный код на sklearn.feature_extraction.text
полный список (на самом деле frozenset
С stop_words
) of ENGLISH_STOP_WORDS
через __all__
. Поэтому, если вы хотите использовать этот список плюс еще несколько элементов, вы можете сделать что-то вроде:
from sklearn.feature_extraction import text
stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words)
(где my_additional_stop_words
- любая последовательность строк) и используйте результат как