Почему метод перекрестной энтропии предпочтительнее среднеквадратичной ошибки? В каких случаях это не работает? [закрытый]
хотя оба вышеперечисленных метода обеспечивают лучший результат для лучшей близости прогнозирования, все же предпочтительнее кросс-энтропия. Это в каждом случае или есть какие-то особые сценарии, где мы предпочитаем кросс-энтропию над MSE?
3 ответов
Кросс-энтропия предпочтительнее для классификация, тогда как среднеквадратичная ошибка является одним из лучших вариантов для регрессия. Это происходит непосредственно из постановки самой проблемы - в классификации вы работаете с очень конкретным набором возможных выходных значений, поэтому MSE плохо определен (поскольку он не имеет такого рода знаний, таким образом, наказывает ошибки несовместимым образом). Чтобы лучше понять явления, хорошо следить и понимать отношения между
- кросс-энтропии
- логистическая регрессия (двоичная энтропия крест)
- линейная регрессия (MSE)
вы заметите, что оба могут рассматриваться как оценки максимального правдоподобия, просто с разными предположениями о зависимой переменной.
когда вы выводите функцию затрат из аспекта вероятности и распределения, вы можете наблюдать, что MSE происходит, когда вы предполагаете, что ошибка следует за нормальным распределением и перекрестной энтропией, когда вы предполагаете биномиальное распределение. Это означает, что неявно, когда вы используете MSE, вы делаете регрессию (оценку), а когда вы используете CE, вы делаете классификацию. Надеюсь, это немного поможет.
Если вы делаете логистическую регрессию, например, вы будете использовать сигмоидную функцию для оценки вероятности de, перекрестную энтропию как функцию потерь и градиентный спуск, чтобы минимизировать ее. Выполнение этого, но использование MSE в качестве функции потерь может привести к невыпуклой проблеме, где вы можете найти локальные минимумы. Использование перекрестной энтропии приведет к выпуклой задаче, где вы можете найти оптимальный решение.
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
здесь также есть интересный анализ: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/