Что такое "наивный" в наивном классификаторе Байеса?

что наивного в наивном Байесе?

4 ответов


на самом деле есть очень хороший пример Википедии:

проще говоря, наивный классификатор Байеса предполагает, что наличие (или отсутствие) конкретного признака класса не связано с наличием (или отсутствием) любого другого признака, учитывая переменную класса. Например, плод можно считать яблоком, если он красный, круглый и около 4 дюймов в диаметре. Даже если эти особенности зависят друг от друга или от существования другого особенности, наивный классификатор Байеса считает, что все эти свойства независимо способствуют вероятности того, что этот плод является яблоком.

в принципе, это "наивно", потому что он делает предположения, которые могут оказаться или не оказаться правильными.


Если ваши данные состоят из вектора объектов X = {x1, x2, ... x10} и ваш класс помечает Y = {y1, y2, .. У5}. Таким образом, классификатор Байеса определяет правильную метку класса как ту, которая максимизирует следующую формулу:

P(y/X) = P(X/y) * P(y) = P (x1,x2, ... x10 / y) * P(y)

Итак, это все еще не наивно. Однако вычислить P(x1,x2, ... x10 / Y), поэтому мы предполагаем, что функции независимы, это то, что мы называем наивным предположением, следовательно, вместо этого мы получаем следующую формулу

P(y/X) = P(x1/y) * P (x2/y) * ... P(x10/y) * P (y)


Это называется наивным, потому что он делает предположение, что все атрибуты независимы друг от друга. Это предположение, почему его называют наивным, поскольку во многих ситуациях реального мира это не подходит. Несмотря на это, классификатор работает очень хорошо во многих реальных ситуациях и имеет сопоставимую производительность с нейтральными сетями и SVM в некоторых случаях (хотя и не во всех).


для классификации когда мы находим совместное распределение, проблема заключается в том, что оно просто отражает данные обучения и также очень трудно вычислить. Поэтому нам нужно что-то, что обобщает более полезно.

на наивная модель обобщает сильно, что каждый атрибут распространяется независимо от любых других атрибутов.

Это действительно помогает не заботиться о зависимости между атрибутами в значительной степени.