в чем разница между машинным обучением и статистикой?

на лекция Тьюринга 2010 Кристофер Бишоп говорит о машинном обучении, проходящем революцию, потому что статистика применяется к алгоритмам машинного обучения...

но тогда, как и все алгоритмы машинного обучения, все статистические алгоритмы.. в чем реальная разница между ними? почему в большинстве университетов существуют отдельные курсы?

6 ответов


между ними нет большой разницы, и то, что есть, в основном культурное. Машинное обучение пришло из корней информатики, тогда как статистика более математична. Есть хороший пост в блоге под названием " Статистика против машинного обучения, борьба!" Брендан О'Коннор, который говорит об этом.

Что касается нестатистических подходов к машинному обучению, то существует несколько основанных на правилах подходов (деревья решений, индукция правил, ILP) , и есть также подходы, такие как обучение подкреплению для проблем управления. Тем не чувствовать очень статистически для меня, но вы можете утверждать, что они есть... вы, вероятно, могли бы утверждать, что вся жизнь подпадает под статистическую теорию решений, если бы вы захотели (на самом деле,Маркус Хуттер делает).


статистика основывает все на вероятностных моделях. Типичный анализ начинается с предположения, что ваши данные являются выборками из случайной величины с некоторым распределением, а затем делают выводы о параметрах распределения.

машинное обучение мая используйте вероятностные модели, и когда это произойдет, он перекрывается со статистикой. Но машинное обучение не настолько привержено вероятности. Он также готов использовать другие подходы к решению проблем, которые не основаны на вероятность.


Я вижу некоторые важные различия:

#Scope: машинное обучение использует статистические модели, но также использует другие модели, такие как динамическое программирование, обучение подкреплению, методы, которые пришли из искусственного интеллекта или оптимизации.

точка#зрения: статистика обычно связана со свойствами оценок (беспристрастность, ассимптотическое поведение) , а машинное обучение в основном связано с решением проблемы реального мира.

#Reasearch поле: хотя статистику можно рассматривать как подполе прикладной математики, машинное обучение можно рассматривать как подполе информатики.

#разработка и применение кода: в то время как люди, которые работают со статистикой, обычно имеют преимущество для R (или SAS, STATA, EVIEWS), люди, которые работают с машинным обучением, обычно выбирают Python (или другой структурированный язык программирования)


возможно, стоит отметить, что аналогичный вопрос рассматривается и обсуждается в CrossValidated


статистика фокусируется на всех аспектах анализа данных, таких как описательный, исследовательский, выводной, прогнозирующий и причинный. Но машинное обучение сосредоточено только на прогностическом моделировании.


машинное обучение

  • алгоритм, который может учиться на данных, не полагаясь на программирование на основе правил.

  • подполье информатики и искусственного интеллекта, которое занимается созданием систем, которые могут учиться на данных, а не явно запрограммированных инструкций.

статистическое моделирование составляет

  • формализация отношений между переменными в виде математических уравнений.

  • подполе математики, которая занимается поиском взаимосвязи между переменными, чтобы предсказать результат

система машинного обучения действительно является системой обучения, если она не запрограммирована на выполнение задачи, но запрограммирована учиться выполнять задачу. Это упражнение, основанное на данных. Современное машинное обучение не опирается на богатый набор алгоритмических методов. Почти все применения этой формы машинное обучение основано на глубоких нейронных сетях. Это область, которую мы теперь склонны называть глубоким обучением, специализацией машинного обучения и часто применяемой в слабых приложениях искусственного интеллекта, где машины выполняют человеческую задачу.