Какой статистический тест scipy я использую для сравнения выборочных средних?
предполагая, что размеры выборки не равны, какой тест я использую для сравнения выборочных средств при следующих обстоятельствах (пожалуйста, исправьте, если любое из следующих неверно):
Нормальное Распределение = True и однородность дисперсии = True
scipy.stats.ttest_ind(sample_1, sample_2)
Нормальное Распределение = True и однородность дисперсии = False
scipy.stats.ttest_ind(sample_1, sample_2, equal_var = False)
Нормального Распределения = Ложные и однородность дисперсии = True
scipy.stats.mannwhitneyu(sample_1, sample_2)
Нормальное Распределение = False и однородность дисперсии = False
???
1 ответов
быстрый ответ:
Нормальное Распределение = True и однородность дисперсии = False и объем выборки > 30-50
scipy.stats.ttest_ind(sample1, sample2, equal_var=False)
правильный ответ:
если вы проверите центральную предельную теорему, она говорит (Из Википедии): "в теории вероятностей центральная предельная теорема (CLT) утверждает, что при определенных условиях среднее арифметическое достаточно большого числа итераций независимых случайных величин, каждая с четко определенным (конечным) ожидаемым значением и конечной дисперсией, будет примерно нормально распределяться, независимо от базового распределения"
Итак, хотя у вас нет нормальной распределенной популяции, если ваша выборка достаточно велика (более 30 или 50 образцов), то среднее значение выборок будет нормально распределено. Итак, вы можете использовать:
scipy.stats.ttest_ind(sample1, sample2, equal_var=False)
это двусторонний тест для нулевой гипотезы о том, что 2 независимых образца имеют одинаковое среднее (ожидаемое значение. С параметром equal_var = False он выполняет t-тест Уэлча, который не предполагает равной дисперсии популяции.