Как найти важность функций для модели логистической регрессии?

у меня есть бинарная модель прогнозирования обучение по алгоритму логистической регрессии. Я хочу знать, какие функции (предикторы) более важны для решения положительного или отрицательного класса. Я знаю, что есть coef_ параметр происходит из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить coef_ значения с точки зрения важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии и я не знаю, что это такое.

допустим, есть такие функции, как размер опухоли, вес опухоли и т. д., чтобы принять решение для тестового случая, такого как злокачественный или не злокачественный. Я хочу знать, какие из особенностей более важны для злокачественного, а не злокачественного прогнозирования. Это своего рода чувство?

1 ответов


одним из простейших вариантов получить представление о "влиянии" данного параметра в линейной классификационной модели (логистической) является рассмотрение величины его коэффициента, умноженного на стандартное отклонение соответствующего параметра в данных.

Рассмотрим пример:

import numpy as np    
from sklearn.linear_model import LogisticRegression

x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

m = LogisticRegression()
m.fit(X, y)

# The estimated coefficients will all be around 1:
print(m.coef_)

# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)

альтернативный способ получить аналогичный результат-изучить коэффициенты модели, подходящие по стандартизированным параметрам:

m.fit(X / np.std(X, 0), y)
print(m.coef_)

Примечание. что это самый базовый подход и существует ряд других методов для определения важности функции или влияния параметра (с использованием p-значений, оценок начальной загрузки, различных "дискриминационных индексов" и т. д.).

Я уверен, что вы получите более интересные ответы на https://stats.stackexchange.com/.