Какой статистический тест scipy я использую для сравнения выборочных средних?

предполагая, что размеры выборки не равны, какой тест я использую для сравнения выборочных средств при следующих обстоятельствах (пожалуйста, исправьте, если любое из следующих неверно):

Нормальное Распределение = True и однородность дисперсии = True

scipy.stats.ttest_ind(sample_1, sample_2)

Нормальное Распределение = True и однородность дисперсии = False

scipy.stats.ttest_ind(sample_1, sample_2, equal_var = False)

Нормального Распределения = Ложные и однородность дисперсии = True

scipy.stats.mannwhitneyu(sample_1, sample_2)

Нормальное Распределение = False и однородность дисперсии = False

???

1 ответов


быстрый ответ:

Нормальное Распределение = True и однородность дисперсии = False и объем выборки > 30-50

scipy.stats.ttest_ind(sample1, sample2, equal_var=False)

правильный ответ:

если вы проверите центральную предельную теорему, она говорит (Из Википедии): "в теории вероятностей центральная предельная теорема (CLT) утверждает, что при определенных условиях среднее арифметическое достаточно большого числа итераций независимых случайных величин, каждая с четко определенным (конечным) ожидаемым значением и конечной дисперсией, будет примерно нормально распределяться, независимо от базового распределения"

Итак, хотя у вас нет нормальной распределенной популяции, если ваша выборка достаточно велика (более 30 или 50 образцов), то среднее значение выборок будет нормально распределено. Итак, вы можете использовать:

scipy.stats.ttest_ind(sample1, sample2, equal_var=False)

это двусторонний тест для нулевой гипотезы о том, что 2 независимых образца имеют одинаковое среднее (ожидаемое значение. С параметром equal_var = False он выполняет t-тест Уэлча, который не предполагает равной дисперсии популяции.