TfidfVectorizer в scikit-learn: ValueError: np.Нэн недействительный документ
я использую TfidfVectorizer из scikit-научитесь извлекать некоторые функции из текстовых данных. У меня есть CSV-файл со счетом (может быть +1 или -1) и отзыв (текст). Я вытащил эти данные в фрейм данных, чтобы я мог запустить Векторизатор.
Это мой код:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
df = pd.read_csv("train_new.csv",
names = ['Score', 'Review'], sep=',')
# x = df['Review'] == np.nan
#
# print x.to_csv(path='FindNaN.csv', sep=',', na_rep = 'string', index=True)
#
# print df.isnull().values.any()
v = TfidfVectorizer(decode_error='replace', encoding='utf-8')
x = v.fit_transform(df['Review'])
это трассировка для ошибки, которую я получаю:
Traceback (most recent call last):
File "/home/PycharmProjects/Review/src/feature_extraction.py", line 16, in <module>
x = v.fit_transform(df['Review'])
File "/home/b/hw1/local/lib/python2.7/site- packages/sklearn/feature_extraction/text.py", line 1305, in fit_transform
X = super(TfidfVectorizer, self).fit_transform(raw_documents)
File "/home/b/work/local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 817, in fit_transform
self.fixed_vocabulary_)
File "/home/b/work/local/lib/python2.7/site- packages/sklearn/feature_extraction/text.py", line 752, in _count_vocab
for feature in analyze(doc):
File "/home/b/work/local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 238, in <lambda>
tokenize(preprocess(self.decode(doc))), stop_words)
File "/home/b/work/local/lib/python2.7/site-packages/sklearn/feature_extraction/text.py", line 118, in decode
raise ValueError("np.nan is an invalid document, expected byte or "
ValueError: np.nan is an invalid document, expected byte or unicode string.
Я проверил CSV-файл и фрейм данных на все, что читается как NaN, но я ничего не могу найти. Есть 18000 строк, нет из которых возвращение isnan
как истинные.
Это df['Review'].head()
выглядит так:
0 This book is such a life saver. It has been s...
1 I bought this a few times for my older son and...
2 This is great for basics, but I wish the space...
3 This book is perfect! I'm a first time new mo...
4 During your postpartum stay at the hospital th...
Name: Review, dtype: object
1 ответов
вам нужно преобразовать dtype object
to unicode
строка, как четко указано в обратной трассировке.
x = v.fit_transform(df['Review'].values.astype('U')) ## Even astype(str) would work
со страницы Doc Векторизатора TFIDF:
fit_transform (raw_documents, y=нет)
параметры: raw_documents: iterable
iterable, который дает либо str, unicode или объекты