Как узнать, когда использовать определенный вид индекса сходства? Евклидово расстояние и коэффициент корреляции Пирсона

какие факторы учитывать при выборе индекса подобия. В каких случаях Евклидово расстояние предпочтительнее Пирсона и наоборот?

2 ответов


корреляция не зависит от единицы; если вы масштабируете один из объектов десять раз, вы получите разные евклидовы расстояния и одинаковые расстояния корреляции. Поэтому метрики корреляции превосходны, когда вы хотите измерить расстояние между такими объектами, как гены, определенные их профилем экспрессии.

часто абсолютная или квадратная корреляция используется в качестве метрики расстояния, потому что нас больше интересует сила отношения, чем его знак.

однако корреляция подходит только для Высокомерных данных; вряд ли есть точка вычисления для двух - или трехмерных точек данных.

также обратите внимание, что" расстояние Пирсона "является взвешенным типом евклидова расстояния, а не" корреляционное расстояние " с использованием коэффициента корреляции Пирсона.


Это очень зависит от сценария применения силы. Очень кратко, если вы имеете дело с данными, где реально разница в значениях атрибутов важно идти с евклидовым расстоянием. Если вы ищете сходство тренда или фигуры, перейдите к корреляции. Также обратите внимание, что если вы выполняете нормализацию z-score в каждом объекте, Евклидово расстояние ведет себя аналогично коэффициенту корреляции Пирсона. Пирсон не чувствителен к линейным преобразованиям данные. Существуют и другие типы коэффициентов корреляции, которые учитывают только ранги значений, будучи нечувствительными как к линейным, так и к нелинейным преобразованиям. Обратите внимание, что обычным использованием корреляции как несходства является 1 - корреляция, которая не соблюдает все правила для метрического расстояния.

есть некоторые исследования, на которых мера близости выбрать в конкретном приложении, например:

А. Пабло Jaskowiak, Б. И. Г. Рикардо Кампейо, Иван Г. Коста Фильо, "меры близости для кластеризации данных экспрессии генов микрочастиц: методология валидации и сравнительный анализ", IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 99, нет. PrePrints, p. 1,, 2013