Wynik testu t studenta obliczony ze wzoru i w excelu

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
pumbosha
Użytkownik
Użytkownik
Posty: 6
Rejestracja: 18 lip 2008, o 21:02
Płeć: Mężczyzna
Lokalizacja: kielce
Podziękował: 2 razy

Wynik testu t studenta obliczony ze wzoru i w excelu

Post autor: pumbosha »

Witam,

Próbuję zrozumieć zagadnienie testu T-studenta. I tak mam w excelu następujące dane (powiedzmy sprzedaż batonów dla kolejnych dni):

164
165
187
233
277
172
244
209
229
238
282
225
184
207
160
131
191
223
207
113
133
187
202
203
269
305
172
159
166
145
123

Excel wyliczył mi następujące wartości:
średnia: 196,9354839
odchylenie standardowe: 48,22788646
błąd standardowy: 8,661984113
liczba elementów: 31

Chciałbym dla tych danych obliczyć wynik test studenta dla pojedynczej próby, gdzie średnia dla poprzedniej próby (dajmy na to: sprzedaż batonów w poprzednim miesiącu) wynosi 180.

Podstawiam zatem do wzoru:
\(\displaystyle{ t=\frac{X-\mu}{S_{x}}*\sqrt{n-1}}\)
i tak:
Różnica średnich to \(\displaystyle{ X-\mu = 196,9354839-180=16,9354839}\)
Wynik dzielę przez błąd standardowy, czyli odchylenie dzielone przez \(\displaystyle{ \sqrt{31-1}=5,477}\) :
\(\displaystyle{ \frac{16,9354839}{\frac{48,22788646}{5,477}}=1,955}\)
Dalej sięgam do tabeli (a właściwie kalkulatora webowego: ), aby wyznaczyć prawdopodobieństwo tego, że wynik jest statystycznie ważny (?? statistically significant) i wychodzi, że dla próby 30 \(\displaystyle{ p=0,06}\)

Wszystko byłoby cacy gdyby nie to, że w excelu wynik jest nieco inny i formuła zapuszczona na wyżej przytoczonych kolumnach: "=Z.TEST(arkusz[sales];180)" daje mi wynik: 0,025282646

-> Czy ktoś mądry mógłby wskazać mi w którym miejscu/miejscach robię błąd i wskazać właściwy kierunek?
szw1710

Re: Wynik testu t studenta obliczony ze wzoru i w excelu

Post autor: szw1710 »

-> Czy ktoś mądry mógłby wskazać mi w którym miejscu/miejscach robię błąd i wskazać właściwy kierunek?
Dziękuję za komplement. Nie pozostaje mi nic innego, jak wyjaśnić rozbieżność uzyskanych wyników.

Próbujesz się tu wypowiedzieć o tzw. krytycznym poziomie istotności czyli o p-wartości. Jest to taki poziom istotności, że dla poziomów istotności poniżej niego brak podstaw do odrzucenia hipotezy zerowej, zaś dla poziomów istotności powyżej niego mamy brak podstaw do odrzucenia hipotezy zerowej. Sama p-wartość mocno zależy od przyjętej hipotezy alternatywnej. Poniżej rozwiążę zadanie w R z dwiema postaciami hipotezy alternatywnej. Mocno bowiem podejrzewam, że Excel przyjął inną od Twojej hipotezę alternatywną i to jest źródłem rozbieżności w obliczeniach.

Wybór narzędzia nie ma większego znaczenia, a lubię bardzo R.

Najpierw sprawdzam założenia modelu: czy próba pochodzi z populacji o rozkładzie normalnym. Wykonuję test Shapiro-Wilka:

Kod: Zaznacz cały

> shapiro.test(sales)

	Shapiro-Wilk normality test

data:  sales
W = 0.97764, p-value = 0.7442
Wysoka p-wartość świadczy o tym, że na sensownych poziomach istotności (do \(\displaystyle{ 10\%}\)) brak podstaw do odrzucenia hipotezy o normalności tego rozkładu. Dlatego można stosować test Studenta.

Nasza hipoteza zerowa to \(\displaystyle{ H_0:\mu=180.}\)

Hipoteza alternatywna \(\displaystyle{ H_1:\mu\ne 180.}\)

Kod: Zaznacz cały

> t.test(sales,mu=180,alternative = "two.sided")

	One Sample t-test

data:  sales
t = 1.9552, df = 30, p-value = 0.05994
alternative hypothesis: true mean is not equal to 180
95 percent confidence interval:
 179.2454 214.6256
sample estimates:
mean of x 
 196.9355 
Istotnie, p-wartością jest \(\displaystyle{ 0.06}\), więc przyjęłaś obustronną hipotezę alternatywną. Interpretacja: na poziomach istotności poniżej \(\displaystyle{ 6\%}\) brak podstaw do odrzucenia \(\displaystyle{ H_0}\) i różnica jest nieistotna. Dla poziomów istotności powyżej \(\displaystyle{ 6\%}\) odrzucamy \(\displaystyle{ H_0}\) i różnica ta jest istotna.

Teraz hipoteza alternatywna jednostronna. Ponieważ średnia z próby jest większa niż \(\displaystyle{ 180}\), przyjmujemy hipotezę prawostronną, czyli \(\displaystyle{ H_1:\mu>180.}\)

Kod: Zaznacz cały

> t.test(sales,mu=180,alternative = "greater")

	One Sample t-test

data:  sales
t = 1.9552, df = 30, p-value = 0.02997
alternative hypothesis: true mean is greater than 180
95 percent confidence interval:
 182.2338      Inf
sample estimates:
mean of x 
 196.9355 
I tutaj p-wartość jest zbliżona do tej Excelowej. Drobna różnica wynika z tego, że p-wartość została przez R wyliczona w oparciu o rozkład Studenta, zaś w Excelu w oparciu o rozkład normalny:

Kod: Zaznacz cały

> (mean(sales)-180)*sqrt(31)/sd(sales)->p
> 1-pt(p,30)
[1] 0.02996884
> 1-pnorm(p)
[1] 0.02528265
Wszystko się pięknie zgadza.

Dlatego Excel przyjął prawostronną hipotezę alternatywną. Musisz pogrzebać w dokumentacji, jak narzucić mu hipotezę alternatywną obustronną, jeśli chcesz otrzymać wynik zgodny z Twoimi obliczeniami.

Samodzielnie zinterpretuj wyniki tego testu w kontekście otrzymanej p-wartości.

Nie zamierzam dochodzić jak w Excelu narzucić hipotezę alternatywną inną niż ta, którą wybiera. Bezpośrednio w funkcji Z.TEST się nie da. Mam znacznie lepsze, i do tego całkowicie darmowe, narzędzie w postaci R. Excel - rower z hipermarketu, który rozleci się po \(\displaystyle{ 100}\) km jazdy. R - profesjonalny rower kolarski.

Osobiście śmiem sądzić, że w Excelu hipoteza alternatywna jest dobierana automatycznie według danych uzyskanych w próbie. Jeśli średnia z próby jest mniejsza niż średnia hipotetyczna, dobiera się hipotezę alternatywną lewostronną. Jeśli większa - prawostronną. Uwalnia to użytkownika od jakiegokolwiek myślenia i nie sprzyja dobrej interpretacji wyniku. Ludzie odpowiadają: wynik jest statystycznie istotny, bo tak wyszło w Excelu. Nie podadzą powodu statystycznego, ale powołają się na pseudo-autorytet Excela.

Program R, mimo że darmowy, jest używany do poważnych badań naukowych, w których potrzeba statystyki. Jest też mnóstwo prac pokazujących, że niektóre algorytmy statystyczne Excela są błędne i w statystyce Excel może służyć jedynie jako narzędzie zabawkowe. Chyba, że będzie się wszystko liczyć ręcznie (tzn. nie z użyciem funkcji), a to mija się z celem.
pumbosha
Użytkownik
Użytkownik
Posty: 6
Rejestracja: 18 lip 2008, o 21:02
Płeć: Mężczyzna
Lokalizacja: kielce
Podziękował: 2 razy

Re: Wynik testu t studenta obliczony ze wzoru i w excelu

Post autor: pumbosha »

Dziękuję za komplement
-> ależ prosz:)

Wielkie dzięki za wyczerpującą odpowiedź.
Jeśli chodzi o narzędzie to znajduję się na początku drogi zwanej modnie: 'data scientist', i tak niestety na początku kursu przebrnać trzeba przez Excela. Potem wchodzi R i dalej Python.

Co do samego rozwiązania, byłbym wdzięczny za rozwianie dwóch wątpliwości:

1.
Jest to taki poziom istotności, że dla poziomów istotności poniżej niego brak podstaw do odrzucenia hipotezy zerowej, zaś dla poziomów istotności powyżej niego mamy brak podstaw do odrzucenia hipotezy zerowej
-> czy przypadkiem powyżej nie mamy podstaw do odrzucenia hipotezy alternatywnej?
?

2.
Interpretacja: na poziomach istotności poniżej 6\% brak podstaw do odrzucenia H_0 i różnica jest nieistotna. Dla poziomów istotności powyżej 6\% odrzucamy H_0 i różnica ta jest istotna.
-> jak to się ma do tych słynnych 5% (p=0,05) przyjmowanych przez statystyków jako minimalne p dla którego hipoteza zerowa może zostać odrzucona?
...spróbuję odpowiedzieć sobie sam:
Za wiki:
Jeśli p-wartość jest większa, oznacza to, iż nie ma powodu do odrzucenia tzw. hipotezy zerowej H0, która zwykle stwierdza, że obserwowany efekt jest dziełem przypadku.
-> Jeśli za krytyczny poziom istotności przyjmę te 5%, to fakt, że \(\displaystyle{ 6 > 5}\) sprawia, że wynik zinterpretować mogę następująco:
Wartość p dla t testu na poziomie 6% oznacza, ze nie ma powodu do odrzucenia hipotezy zerowej, zakładającej w tym przypadku, że rozbieżność średnich 180 i 196,9354839 jest dziełem przypadku. Jeśli natomiast natomiast wynik byłby niższy niż te 5% mógłbym założyć, że różnica nie była dziełem przypadku, a...no właśnie. Z czego właściwie wynikała? Z tego, że zbiory te są po prostu statystycznie różne?
szw1710

Re: Wynik testu t studenta obliczony ze wzoru i w excelu

Post autor: szw1710 »

ad 1. Nie - chodzi o brak podstaw do odrzucenia hipotezy zerowej. Tłumaczenie dlaczego tak jest przerasta nieco ramy odpowiedzi na forum.

ad 2. To jest gust statystyków, ich jakieś doświadczenie. Osobiście za bardziej rzetelne uważam testowanie hipotez w oparciu o p-wartości. Tu bowiem można się konkretnie wypowiedzieć o poziomach istotności, przy których brak podstaw do odrzucenia \(\displaystyle{ H_0}\) lub przy których odrzucamy \(\displaystyle{ H_0}\). Nie narzuca się jakiegoś poziomu. Ponadto warto wiedzieć czym jest ten poziom istotności. To prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy \(\displaystyle{ H_0}\), gdy jest ona prawdziwa.
> Jeśli za krytyczny poziom istotności przyjmę te 5%, to fakt, że 6 > 5 sprawia, że wynik zinterpretować mogę następująco:
Wartość p dla t testu na poziomie 6% oznacza, ze nie ma powodu do odrzucenia hipotezy zerowej, zakładającej w tym przypadku, że rozbieżność średnich 180 i 196,9354839 jest dziełem przypadku. Jeśli natomiast natomiast wynik byłby niższy niż te 5% mógłbym założyć, że różnica nie była dziełem przypadku, a...no właśnie.
Masz rację, tak interpretuje się p-wartości.
Z czego właściwie wynikała? Z tego, że zbiory te są po prostu statystycznie różne?
Jakie zbiory? Odpowiadając na tak postawione pytanie musiałbym wróżyć z fusów. Po prostu średnia z próby jest za duża w stosunku do hipotetycznej i potwierdza to test Studenta.
pumbosha
Użytkownik
Użytkownik
Posty: 6
Rejestracja: 18 lip 2008, o 21:02
Płeć: Mężczyzna
Lokalizacja: kielce
Podziękował: 2 razy

Re: Wynik testu t studenta obliczony ze wzoru i w excelu

Post autor: pumbosha »

Teraz wszystko jasne. Jeszcze raz wielkie dzięki za pomoc.
Pozdrawiam!
ODPOWIEDZ