Что такое функция потерь в простых словах?

может ли кто-нибудь объяснить простыми словами и, возможно, с некоторыми примерами, что такое функции потерь в области машинного обучения и нейронных сетей?

Это вышло, когда я следовал учебнику Tensorflow: https://www.tensorflow.org/get_started/get_started

3 ответов


функция потери - это то, как вы наказываете свой выход.

следующий пример для контролируемой настройки, т. е. когда вы знаете, что правильный результат должен быть. Хотя функции потерь могут применяться даже в бесконтрольных настройках.

Предположим, у вас есть модель, которая всегда предсказывает 1. Только скалярное значение 1.

вы можете иметь много функций потери приложенных к этой модели. L2-евклидово расстояние.

Если я передам какое-то значение, скажем 2 и я хочу, чтобы моя модель изучила функцию x**2, тогда результат должен быть 4 (потому что 2*2 = 4). Если мы применяем потерю L2, то ее вычисляют как||4 - 1||^2 = 9.

мы можем также составить нашу собственную функцию потери. Мы можем сказать, что функция потерь всегда 10. Таким образом, независимо от того, что выводит наша модель, потеря будет постоянной.

Почему мы заботимся о функции потерь? Ну, они определяют, насколько плохо модель сделала и в контексте backpropagation и нейронных сетей. Они также определите градиенты от конечного слоя для распространения, чтобы модель могла учиться.

Как и другие комментарии, я думаю, что вы должны начать с основного материала. Вот хорошая ссылка, чтобы начать с http://neuralnetworksanddeeplearning.com/


Он описывает, насколько далек результат, полученный вашей сетью, от ожидаемого результата - это указывает на величину ошибки, которую ваша модель сделала на своем предсказании.

затем вы можете взять эту ошибку и "вернуть" ее через свою модель, отрегулировав ее вес и приблизив ее к истине в следующий раз.


определение функции потерь: Пусть (X,A) быть измеримым пространством и Y⊂R быть замкнутым подмножеством. Потом функция L: X×Y×R→[0,∞) называется функции потерь, или просто потеря, если она измерима.

в следующем, мы будем интерпретировать L(x, y, f (x)) как цена, или потеря, прогноза Y by f (x) Если x наблюдается, т. е. меньше значение L(x, y, f (x)) лучше f (x) предсказывает инь чувство L. Из этого становится ясно эта постоянная потеря функций, таких как L:= 0, довольно бессмысленны для нашего цели, так как они не различают хорошие и плохие предсказания. Давайте теперь вспомним из введения, что наша главная цель состоит в том, чтобы небольшая средняя потеря для будущих невидимых наблюдений (x, y).