В чем разница между линейной регрессией и логистической регрессией?
когда мы должны предсказать значение категорический (или дискретный) результат мы используем логистическая регрессия. Я считаю, что мы используем линейная регрессия также предсказать значение результата с учетом входных значений.
тогда, в чем разница между двумя методологиями?
11 ответов
-
выход линейной регрессии как вероятности
заманчиво использовать выход линейной регрессии в качестве вероятностей, но это ошибка, потому что выход может быть отрицательным и больше 1, тогда как вероятность не может. Как регрессия может на самом деле производить вероятности, которые могут быть меньше 0 или даже больше 1, была введена логистическая регрессия.
источник: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
-
исход
в линейной регрессии результат (зависимая переменная) непрерывен. Он может иметь любое из бесконечного числа возможных значений.
в логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.
-
зависимая переменная
логистическая регрессия используется, когда переменная ответа категорична по своей природе. Например, Да / нет, true / false, красный / зеленый / синий, 1-й/2-й/3-й/4-й и т. д.
линейная регрессия используется, когда переменная ответа непрерывна. Например, вес, рост, количество часов и т. д.
-
уравнение
линейная регрессия дает уравнение который имеет вид Y = mX + C, означает, уравнение со степенью 1.
однако, логистическая регрессия дает уравнение, которое имеет вид Y = eX + e - X
-
коэффициент толкования
в линейной регрессии интерпретация коэффициентов независимых переменных довольно проста (т. е. удержание всех других переменных постоянными, с единичным увеличением этой переменной, зависимой переменная, как ожидается, увеличится / уменьшится на xxx).
однако, в логистической регрессии, зависит от семьи (биномиальное, Пуассона, так далее.) и link (log, logit, inverse-log и т. д.) вы используете, интерпретация отличается.
-
метод минимизации ошибок
линейная регрессия использует наименьших квадратов метод минимизации ошибки и приходят к наилучшей возможной подгонке, в то время как логистическая регрессия использует максимального правдоподобия метод, чтобы прийти к решению.
линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки наказываются квадратично.
логистическая регрессия-это как раз наоборот. Использование функции логистических потерь приводит к тому, что большие ошибки штрафуются до асимптотически постоянной.
рассмотрим линейную регрессию по категориальным {0, 1} результатам, чтобы понять, почему это проблема. Если ваша модель предсказывает результат 38, когда истина равна 1, вы ничего не потеряли. Линейная регрессия попытается уменьшить это 38, логистика не будет (столько)2.
в линейной регрессии результат (зависимая переменная) непрерывен. Он может иметь любое из бесконечного числа возможных значений. В логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.
например, если X содержит площадь в квадратных футах домов, а Y содержит соответствующую цену продажи этих домов, вы можете использовать линейную регрессию для прогнозирования цены продажи в зависимости от размера дома. Пока возможна продажа цена может вообще не быть!--3-->любой, существует так много возможных значений, что будет выбрана модель линейной регрессии.
Если бы вместо этого вы хотели предсказать, основываясь на размере, будет ли дом продаваться более чем за $200K, вы бы использовали логистическую регрессию. Возможные выходы: либо да, дом будет продаваться за более чем $200K, либо нет, дом не будет.
проще говоря, линейная регрессия-это алгоритм регрессии, который опережает возможное непрерывное и бесконечное значение; логистическая регрессия рассматривается как алгоритм двоичного классификатора, который выводит "вероятность" входа, принадлежащего метке (0 или 1).
основные отличия :
линейная регрессия в основном является регрессионной моделью, что означает, что она даст не дискретный/непрерывный выход функции. Таким образом, этот подход дает ценность. Например: учитывая x, Что такое f (x)
например, учитывая набор различных факторов обучения и цену недвижимости после обучения мы можем предоставить необходимые факторы, чтобы определить, что будет цена недвижимости.
логистическая регрессия в основном двоичный алгоритм классификации, который означает, что здесь будет дискретный выход для функции . Например : для данного x, если F (x)>порог классифицирует его как 1, иначе классифицирует его как 0.
например, учитывая набор размеров опухоли мозга в качестве тренировочных данных, мы можем использовать размер в качестве входных данных, чтобы определить, является ли его Бенин или злокачественная опухоль. Поэтому здесь выход небезрассуден или 0 или 1.
*здесь функция в основном является функцией гипотезы
Они оба довольно похожи в решении для решения, но, как говорили другие, один (логистическая регрессия) предназначен для прогнозирования категории "fit" (Y/N или 1/0), а другой (линейная регрессия) - для прогнозирования значения.
поэтому, если вы хотите предсказать, есть ли у вас рак Y / N (или вероятность) - используйте logistic. Если вы хотите знать, сколько лет вы будете жить, чтобы использовать линейную регрессию !
просто добавить на предыдущие ответы.
линейная регрессия
предназначен для решения проблемы прогнозирования / оценки выходного значения для данного элемента X(скажем, f (x)). Результатом предсказания является функцией cotinuous, где значения могут быть положительными или отрицательными. В этом случае у вас обычно есть входной набор данных с большим количеством примеры и выходное значение для каждого из них. Цель состоит в том, чтобы иметь возможность fit модель для этого набора данных, так что вы можете предсказать, что выход для новых различных/никогда не видел элементов. Ниже приведен классический пример подгонки линии к множеству точек, но в целом линейная регрессия может использоваться для подгонки более сложных моделей (с использованием более высоких полиномиальных степеней):
регрессия Linea может быть решена двумя различными способами:
- нормальный уравнение (прямой способ решения задачи)
- градиентный спуск (итерационный подход)
логистическая регрессия
предназначен для решения классификация проблемы, где заданный элемент вы должны классифицировать то же самое в N категориях. Типичные примеры, например, дают письмо, чтобы классифицировать его как спам или нет ,или дают автомобиль найти к какой категории он принадлежит (автомобиль, грузовик, фургон и т.д..). Это в основном результат конечный набор дискретных значений.
решение проблемы
проблемы логистической регрессии могут быть решены только с помощью градиентного спуска. Формулировка в целом очень похожа на линейную регрессию, единственное отличие заключается в использовании другой функции гипотезы. В линейной регрессии гипотеза имеет вид:
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
где тета-модель, которую мы пытаемся подогнать и [1, x_1, x_2,..] является входным вектором. В логистике регрессия функция гипотезы отличается:
g(x) = 1 / (1 + e^-x)
эта функция есть хороший отель, в основном это карты любое значение в диапазоне [0,1], который предназначен для обработки propababilities в classificatin. Например, в случае двоичной классификации g (X) можно интерпретировать как вероятность принадлежности к положительному классу. В этом случае обычно у вас есть разные классы, которые разделены с помощью решение граница который в основном кривой это решает разделение между различными классами. Ниже приведен пример набора данных, разделенного на два класса.
короче: Линейная регрессия дает непрерывный выход. т. е. любое значение между диапазоном значений. Логистическая регрессия дает дискретный выход. т. е. Да/нет, 0/1 рода мероприятий.
| Basis | Linear | Logistic |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic | The data is modelled using a straight line. | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required | Not required |
| The independent variable | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist). |
Не могу согласиться с приведенными выше комментариями. Кроме того, есть еще некоторые различия, такие как
в линейной регрессии остатки считаются нормально распределенными. В логистической регрессии остатки должны быть независимыми, но не нормально распределенными.
линейная регрессия предполагает, что постоянное изменение значения объясняющей переменной приводит к постоянному изменению переменной ответа. Это предположение не выполняется, если значение переменная ответа представляет собой вероятность (в логистической регрессии)
GLM (обобщенные линейные модели) не предполагает линейной зависимости между зависимыми и независимыми переменными. Однако он предполагает линейную связь между функцией связи и независимыми переменными в модели logit.
проще говоря, если в модели линейной регрессии тест дела, которые находятся далеко от порога(скажем, =0.5)для предсказания y=1 и г=0. Тогда гипотеза изменится и станет еще хуже.Поэтому модель линейной регрессии не используется для задачи классификации.
другая проблема заключается в том, что если классификация y=0 и y=1, h(x) может быть > 1 или
логистическая регрессия используется для прогнозирования категориальных выходов, таких как Да/нет, низкий/средний/высокий и т. д. У вас есть в основном 2 типа логистической регрессии двоичная логистическая регрессия (Да/нет, одобрено/Неодобрено) или мульти-класс логистической регрессии (низкий/средний / высокий, цифры от 0-9 и т.д.)
с другой стороны, линейная регрессия, если ваша зависимая переменная (y) непрерывна. y = mx + c-простое уравнение линейной регрессии (M = наклон, а c-y-перехват). Полилинейный регрессия имеет более 1 независимой переменной (x1,x2,x3 ... и т. д.)