В чем разница между линейной регрессией и логистической регрессией?

когда мы должны предсказать значение категорический (или дискретный) результат мы используем логистическая регрессия. Я считаю, что мы используем линейная регрессия также предсказать значение результата с учетом входных значений.

тогда, в чем разница между двумя методологиями?

11 ответов


  • выход линейной регрессии как вероятности

    заманчиво использовать выход линейной регрессии в качестве вероятностей, но это ошибка, потому что выход может быть отрицательным и больше 1, тогда как вероятность не может. Как регрессия может на самом деле производить вероятности, которые могут быть меньше 0 или даже больше 1, была введена логистическая регрессия.

    источник: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    enter image description here

  • исход

    в линейной регрессии результат (зависимая переменная) непрерывен. Он может иметь любое из бесконечного числа возможных значений.

    в логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.

  • зависимая переменная

    логистическая регрессия используется, когда переменная ответа категорична по своей природе. Например, Да / нет, true / false, красный / зеленый / синий, 1-й/2-й/3-й/4-й и т. д.

    линейная регрессия используется, когда переменная ответа непрерывна. Например, вес, рост, количество часов и т. д.

  • уравнение

    линейная регрессия дает уравнение который имеет вид Y = mX + C, означает, уравнение со степенью 1.

    однако, логистическая регрессия дает уравнение, которое имеет вид Y = eX + e - X

  • коэффициент толкования

    в линейной регрессии интерпретация коэффициентов независимых переменных довольно проста (т. е. удержание всех других переменных постоянными, с единичным увеличением этой переменной, зависимой переменная, как ожидается, увеличится / уменьшится на xxx).

    однако, в логистической регрессии, зависит от семьи (биномиальное, Пуассона, так далее.) и link (log, logit, inverse-log и т. д.) вы используете, интерпретация отличается.

  • метод минимизации ошибок

    линейная регрессия использует наименьших квадратов метод минимизации ошибки и приходят к наилучшей возможной подгонке, в то время как логистическая регрессия использует максимального правдоподобия метод, чтобы прийти к решению.

    линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели к данным, поэтому большие ошибки наказываются квадратично.

    логистическая регрессия-это как раз наоборот. Использование функции логистических потерь приводит к тому, что большие ошибки штрафуются до асимптотически постоянной.

    рассмотрим линейную регрессию по категориальным {0, 1} результатам, чтобы понять, почему это проблема. Если ваша модель предсказывает результат 38, когда истина равна 1, вы ничего не потеряли. Линейная регрессия попытается уменьшить это 38, логистика не будет (столько)2.


в линейной регрессии результат (зависимая переменная) непрерывен. Он может иметь любое из бесконечного числа возможных значений. В логистической регрессии результат (зависимая переменная) имеет только ограниченное число возможных значений.

например, если X содержит площадь в квадратных футах домов, а Y содержит соответствующую цену продажи этих домов, вы можете использовать линейную регрессию для прогнозирования цены продажи в зависимости от размера дома. Пока возможна продажа цена может вообще не быть!--3-->любой, существует так много возможных значений, что будет выбрана модель линейной регрессии.

Если бы вместо этого вы хотели предсказать, основываясь на размере, будет ли дом продаваться более чем за $200K, вы бы использовали логистическую регрессию. Возможные выходы: либо да, дом будет продаваться за более чем $200K, либо нет, дом не будет.


проще говоря, линейная регрессия-это алгоритм регрессии, который опережает возможное непрерывное и бесконечное значение; логистическая регрессия рассматривается как алгоритм двоичного классификатора, который выводит "вероятность" входа, принадлежащего метке (0 или 1).


основные отличия :

линейная регрессия в основном является регрессионной моделью, что означает, что она даст не дискретный/непрерывный выход функции. Таким образом, этот подход дает ценность. Например: учитывая x, Что такое f (x)

например, учитывая набор различных факторов обучения и цену недвижимости после обучения мы можем предоставить необходимые факторы, чтобы определить, что будет цена недвижимости.

логистическая регрессия в основном двоичный алгоритм классификации, который означает, что здесь будет дискретный выход для функции . Например : для данного x, если F (x)>порог классифицирует его как 1, иначе классифицирует его как 0.

например, учитывая набор размеров опухоли мозга в качестве тренировочных данных, мы можем использовать размер в качестве входных данных, чтобы определить, является ли его Бенин или злокачественная опухоль. Поэтому здесь выход небезрассуден или 0 или 1.

*здесь функция в основном является функцией гипотезы


Они оба довольно похожи в решении для решения, но, как говорили другие, один (логистическая регрессия) предназначен для прогнозирования категории "fit" (Y/N или 1/0), а другой (линейная регрессия) - для прогнозирования значения.

поэтому, если вы хотите предсказать, есть ли у вас рак Y / N (или вероятность) - используйте logistic. Если вы хотите знать, сколько лет вы будете жить, чтобы использовать линейную регрессию !


просто добавить на предыдущие ответы.

линейная регрессия

предназначен для решения проблемы прогнозирования / оценки выходного значения для данного элемента X(скажем, f (x)). Результатом предсказания является функцией cotinuous, где значения могут быть положительными или отрицательными. В этом случае у вас обычно есть входной набор данных с большим количеством примеры и выходное значение для каждого из них. Цель состоит в том, чтобы иметь возможность fit модель для этого набора данных, так что вы можете предсказать, что выход для новых различных/никогда не видел элементов. Ниже приведен классический пример подгонки линии к множеству точек, но в целом линейная регрессия может использоваться для подгонки более сложных моделей (с использованием более высоких полиномиальных степеней):

enter image description here решение проблемы

регрессия Linea может быть решена двумя различными способами:

  1. нормальный уравнение (прямой способ решения задачи)
  2. градиентный спуск (итерационный подход)

логистическая регрессия

предназначен для решения классификация проблемы, где заданный элемент вы должны классифицировать то же самое в N категориях. Типичные примеры, например, дают письмо, чтобы классифицировать его как спам или нет ,или дают автомобиль найти к какой категории он принадлежит (автомобиль, грузовик, фургон и т.д..). Это в основном результат конечный набор дискретных значений.

решение проблемы

проблемы логистической регрессии могут быть решены только с помощью градиентного спуска. Формулировка в целом очень похожа на линейную регрессию, единственное отличие заключается в использовании другой функции гипотезы. В линейной регрессии гипотеза имеет вид:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

где тета-модель, которую мы пытаемся подогнать и [1, x_1, x_2,..] является входным вектором. В логистике регрессия функция гипотезы отличается:

g(x) = 1 / (1 + e^-x)

enter image description here

эта функция есть хороший отель, в основном это карты любое значение в диапазоне [0,1], который предназначен для обработки propababilities в classificatin. Например, в случае двоичной классификации g (X) можно интерпретировать как вероятность принадлежности к положительному классу. В этом случае обычно у вас есть разные классы, которые разделены с помощью решение граница который в основном кривой это решает разделение между различными классами. Ниже приведен пример набора данных, разделенного на два класса.

enter image description here


короче: Линейная регрессия дает непрерывный выход. т. е. любое значение между диапазоном значений. Логистическая регрессия дает дискретный выход. т. е. Да/нет, 0/1 рода мероприятий.


| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

Не могу согласиться с приведенными выше комментариями. Кроме того, есть еще некоторые различия, такие как

в линейной регрессии остатки считаются нормально распределенными. В логистической регрессии остатки должны быть независимыми, но не нормально распределенными.

линейная регрессия предполагает, что постоянное изменение значения объясняющей переменной приводит к постоянному изменению переменной ответа. Это предположение не выполняется, если значение переменная ответа представляет собой вероятность (в логистической регрессии)

GLM (обобщенные линейные модели) не предполагает линейной зависимости между зависимыми и независимыми переменными. Однако он предполагает линейную связь между функцией связи и независимыми переменными в модели logit.


проще говоря, если в модели линейной регрессии тест дела, которые находятся далеко от порога(скажем, =0.5)для предсказания y=1 и г=0. Тогда гипотеза изменится и станет еще хуже.Поэтому модель линейной регрессии не используется для задачи классификации.

другая проблема заключается в том, что если классификация y=0 и y=1, h(x) может быть > 1 или


логистическая регрессия используется для прогнозирования категориальных выходов, таких как Да/нет, низкий/средний/высокий и т. д. У вас есть в основном 2 типа логистической регрессии двоичная логистическая регрессия (Да/нет, одобрено/Неодобрено) или мульти-класс логистической регрессии (низкий/средний / высокий, цифры от 0-9 и т.д.)

с другой стороны, линейная регрессия, если ваша зависимая переменная (y) непрерывна. y = mx + c-простое уравнение линейной регрессии (M = наклон, а c-y-перехват). Полилинейный регрессия имеет более 1 независимой переменной (x1,x2,x3 ... и т. д.)