Как найти важность функций для модели логистической регрессии?
у меня есть бинарная модель прогнозирования обучение по алгоритму логистической регрессии. Я хочу знать, какие функции (предикторы) более важны для решения положительного или отрицательного класса. Я знаю, что есть coef_
параметр происходит из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить coef_
значения с точки зрения важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии и я не знаю, что это такое.
допустим, есть такие функции, как размер опухоли, вес опухоли и т. д., чтобы принять решение для тестового случая, такого как злокачественный или не злокачественный. Я хочу знать, какие из особенностей более важны для злокачественного, а не злокачественного прогнозирования. Это своего рода чувство?
1 ответов
одним из простейших вариантов получить представление о "влиянии" данного параметра в линейной классификационной модели (логистической) является рассмотрение величины его коэффициента, умноженного на стандартное отклонение соответствующего параметра в данных.
Рассмотрим пример:
import numpy as np
from sklearn.linear_model import LogisticRegression
x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])
m = LogisticRegression()
m.fit(X, y)
# The estimated coefficients will all be around 1:
print(m.coef_)
# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)
альтернативный способ получить аналогичный результат-изучить коэффициенты модели, подходящие по стандартизированным параметрам:
m.fit(X / np.std(X, 0), y)
print(m.coef_)
Примечание. что это самый базовый подход и существует ряд других методов для определения важности функции или влияния параметра (с использованием p-значений, оценок начальной загрузки, различных "дискриминационных индексов" и т. д.).
Я уверен, что вы получите более интересные ответы на https://stats.stackexchange.com/.