Функция Python для получения t-статистики

Я ищу функцию Python (или написать свой собственный, если его нет), чтобы получить t-статистику для использования в расчете доверительного интервала.

Я нашел таблицы, которые дают ответы на различные вероятности / степени свободы, как этот, но я хотел бы иметь возможность рассчитать это для любой заданной вероятности. Для тех, кто еще не знаком с этой степени свободы-это количество точек (N) в образце 1 и цифры для заголовков столбцов вверху-вероятности (p), например, используется 2-хвостовой уровень значимости 0,05, если вы ищете t - балл для использования в расчете на 95% - ную уверенность в том, что если вы повторите N тестов, результат попадет в средний + / - доверительный интервал.

Я изучил использование различных функций в scipy.статистика, но ни одна из них, которую я вижу, не учитывает простые входы, описанные выше.

Excel имеет простую реализацию это, например, чтобы получить t-оценку для образца 1000, где мне нужно быть на 95% уверенным, что я буду использовать:=TINV(0.05,999) и получить счет ~1.96

вот код, который я использовал для реализации доверительных интервалов до сих пор, как вы можете видеть, я использую очень грубый способ получения t-score в настоящее время (просто позволяя несколько значений для perc_conf и предупреждение, что это не является точным для образцов

# -*- coding: utf-8 -*-
from __future__ import division
import math

def mean(lst):
    # μ = 1/N Σ(xi)
    return sum(lst) / float(len(lst))

def variance(lst):
    """
    Uses standard variance formula (sum of each (data point - mean) squared)
    all divided by number of data points
    """
    # σ² = 1/N Σ((xi-μ)²)
    mu = mean(lst)
    return 1.0/len(lst) * sum([(i-mu)**2 for i in lst])

def conf_int(lst, perc_conf=95):
    """
    Confidence interval - given a list of values compute the square root of
    the variance of the list (v) divided by the number of entries (n)
    multiplied by a constant factor of (c). This means that I can
    be confident of a result +/- this amount from the mean.
    The constant factor can be looked up from a table, for 95% confidence
    on a reasonable size sample (>=500) 1.96 is used.
    """
    if perc_conf == 95:
        c = 1.96
    elif perc_conf == 90:
        c = 1.64
    elif perc_conf == 99:
        c = 2.58
    else:
        c = 1.96
        print 'Only 90, 95 or 99 % are allowed for, using default 95%'
    n, v = len(lst), variance(lst)
    if n < 1000:
        print 'WARNING: constant factor may not be accurate for n < ~1000'
    return math.sqrt(v/n) * c

вот пример вызова выше код:

# Example: 1000 coin tosses on a fair coin. What is the range that I can be 95%
#          confident the result will f all within.

# list of 1000 perfectly distributed...
perc_conf_req = 95
n, p = 1000, 0.5 # sample_size, probability of heads for each coin
l = [0 for i in range(int(n*(1-p)))] + [1 for j in range(int(n*p))]
exp_heads = mean(l) * len(l)
c_int = conf_int(l, perc_conf_req)

print 'I can be '+str(perc_conf_req)+'% confident that the result of '+str(n)+ 
      ' coin flips will be within +/- '+str(round(c_int*100,2))+'% of '+
      str(int(exp_heads))
x = round(n*c_int,0)
print 'i.e. between '+str(int(exp_heads-x))+' and '+str(int(exp_heads+x))+
      ' heads (assuming a probability of '+str(p)+' for each flip).' 

выход для этого:

Я могу быть на 95% уверен, что результат 1000 монет переворачивается будет в пределах +/- 3,1% от 500, т. е. между 469 и 531 головы (при условии вероятность 0.5 для каждого флип).

Я также посмотрел на расчет t-распределение для диапазона, а затем возврат t-балла, который получил вероятность, наиболее близкую к требуемой, но у меня были проблемы с реализацией формулы. Позволить мне знайте, если это актуально, и вы хотите увидеть код, но я предположил, что нет, поскольку, вероятно, есть более простой способ.

спасибо заранее.

2 ответов


вы пробовали scipy?

вы должны устан библиотека scipy...подробнее об установке здесь: http://www.scipy.org/install.html

после установки вы можете реплицировать функциональность Excel следующим образом:

from scipy import stats
#Studnt, n=999, p<0.05, 2-tail
#equivalent to Excel TINV(0.05,999)
print stats.t.ppf(1-0.025, 999)

#Studnt, n=999, p<0.05%, Single tail
#equivalent to Excel TINV(2*0.05,999)
print stats.t.ppf(1-0.05, 999)

вы также можете прочитать об установке здесь библиотеки: как установить scipy для python?


попробуйте следующий код:

from scipy import stats
#Studnt, n=22,  2-tail
#stats.t.ppf(1-0.025, df)
# df=n-1=22-1=21
print (stats.t.ppf(1-0.025, 21))