Определение оптимального количества кластеров и Дэвис–Bouldin индекс?

Я пытаюсь оценить, какое правильное количество кластеров необходимо для кластеризации некоторых данных.

Я знаю, что это возможно с помощью Дейвис–Bouldin индекс (дБи).

для использования DBI вы должны вычислить его для любого количества кластера, а тот, который минимизирует DBI, соответствует правильному количеству необходимого кластера.

вопрос:

Как узнать, лучше ли 2 кластера, чем 1 кластер с помощью DBI? Итак, как я могу вычислить DBI, когда я есть только 1 кластер?

1 ответов


только с учетом среднего DBI из всех кластеров, по-видимому, не является хорошей идеей.

конечно, увеличение количества кластеров -k, без штрафа, всегда будет уменьшать количество DBI в результирующей кластеризации до крайнего случая нуля DBI Если каждая точка данных считается собственным кластером (поскольку каждая точка данных перекрывается со своим собственным центроидом).

как узнать, лучше ли 2 кластера, чем 1 кластер с помощью DBI? Итак, как я могу рассчитать дБи когда я только кластер 1?

поэтому трудно сказать, какой из них лучше, если вы используете только средний DBI в качестве показателя производительности.

хорошим практическим методом является использование способ локтевых.

другой метод рассматривает процент дисперсии, объясненный как функция количества кластеров: вы должны выбрать несколько кластеров, чтобы добавление другого кластера не давало намного лучше моделирование данных. Точнее, если вы изобразите процент дисперсии, объясненный кластерами, против числа кластеров, первые кластеры добавят много информации (объясняют много дисперсии), но в какой-то момент маргинальный выигрыш упадет, давая угол на графике. Количество кластеров выбирается в этот момент, отсюда и "локтевой критерий".

enter image description here

некоторые другие хорошие альтернативы для выбора оптимального числа кластеры: