Witam,
Próbuję zrozumieć zagadnienie testu T-studenta. I tak mam w excelu następujące dane (powiedzmy sprzedaż batonów dla kolejnych dni):
164
165
187
233
277
172
244
209
229
238
282
225
184
207
160
131
191
223
207
113
133
187
202
203
269
305
172
159
166
145
123
Excel wyliczył mi następujące wartości:
średnia: 196,9354839
odchylenie standardowe: 48,22788646
błąd standardowy: 8,661984113
liczba elementów: 31
Chciałbym dla tych danych obliczyć wynik test studenta dla pojedynczej próby, gdzie średnia dla poprzedniej próby (dajmy na to: sprzedaż batonów w poprzednim miesiącu) wynosi 180.
Podstawiam zatem do wzoru:
\(\displaystyle{ t=\frac{X-\mu}{S_{x}}*\sqrt{n-1}}\)
i tak:
Różnica średnich to \(\displaystyle{ X-\mu = 196,9354839-180=16,9354839}\)
Wynik dzielę przez błąd standardowy, czyli odchylenie dzielone przez \(\displaystyle{ \sqrt{31-1}=5,477}\) :
\(\displaystyle{ \frac{16,9354839}{\frac{48,22788646}{5,477}}=1,955}\)
Dalej sięgam do tabeli (a właściwie kalkulatora webowego: ), aby wyznaczyć prawdopodobieństwo tego, że wynik jest statystycznie ważny (?? statistically significant) i wychodzi, że dla próby 30 \(\displaystyle{ p=0,06}\)
Wszystko byłoby cacy gdyby nie to, że w excelu wynik jest nieco inny i formuła zapuszczona na wyżej przytoczonych kolumnach: "=Z.TEST(arkusz[sales];180)" daje mi wynik: 0,025282646
-> Czy ktoś mądry mógłby wskazać mi w którym miejscu/miejscach robię błąd i wskazać właściwy kierunek?
Wynik testu t studenta obliczony ze wzoru i w excelu
Re: Wynik testu t studenta obliczony ze wzoru i w excelu
Dziękuję za komplement. Nie pozostaje mi nic innego, jak wyjaśnić rozbieżność uzyskanych wyników.-> Czy ktoś mądry mógłby wskazać mi w którym miejscu/miejscach robię błąd i wskazać właściwy kierunek?
Próbujesz się tu wypowiedzieć o tzw. krytycznym poziomie istotności czyli o p-wartości. Jest to taki poziom istotności, że dla poziomów istotności poniżej niego brak podstaw do odrzucenia hipotezy zerowej, zaś dla poziomów istotności powyżej niego mamy brak podstaw do odrzucenia hipotezy zerowej. Sama p-wartość mocno zależy od przyjętej hipotezy alternatywnej. Poniżej rozwiążę zadanie w R z dwiema postaciami hipotezy alternatywnej. Mocno bowiem podejrzewam, że Excel przyjął inną od Twojej hipotezę alternatywną i to jest źródłem rozbieżności w obliczeniach.
Wybór narzędzia nie ma większego znaczenia, a lubię bardzo R.
Najpierw sprawdzam założenia modelu: czy próba pochodzi z populacji o rozkładzie normalnym. Wykonuję test Shapiro-Wilka:
Kod: Zaznacz cały
> shapiro.test(sales)
Shapiro-Wilk normality test
data: sales
W = 0.97764, p-value = 0.7442
Nasza hipoteza zerowa to \(\displaystyle{ H_0:\mu=180.}\)
Hipoteza alternatywna \(\displaystyle{ H_1:\mu\ne 180.}\)
Kod: Zaznacz cały
> t.test(sales,mu=180,alternative = "two.sided")
One Sample t-test
data: sales
t = 1.9552, df = 30, p-value = 0.05994
alternative hypothesis: true mean is not equal to 180
95 percent confidence interval:
179.2454 214.6256
sample estimates:
mean of x
196.9355
Teraz hipoteza alternatywna jednostronna. Ponieważ średnia z próby jest większa niż \(\displaystyle{ 180}\), przyjmujemy hipotezę prawostronną, czyli \(\displaystyle{ H_1:\mu>180.}\)
Kod: Zaznacz cały
> t.test(sales,mu=180,alternative = "greater")
One Sample t-test
data: sales
t = 1.9552, df = 30, p-value = 0.02997
alternative hypothesis: true mean is greater than 180
95 percent confidence interval:
182.2338 Inf
sample estimates:
mean of x
196.9355
Kod: Zaznacz cały
> (mean(sales)-180)*sqrt(31)/sd(sales)->p
> 1-pt(p,30)
[1] 0.02996884
> 1-pnorm(p)
[1] 0.02528265
Dlatego Excel przyjął prawostronną hipotezę alternatywną. Musisz pogrzebać w dokumentacji, jak narzucić mu hipotezę alternatywną obustronną, jeśli chcesz otrzymać wynik zgodny z Twoimi obliczeniami.
Samodzielnie zinterpretuj wyniki tego testu w kontekście otrzymanej p-wartości.
Nie zamierzam dochodzić jak w Excelu narzucić hipotezę alternatywną inną niż ta, którą wybiera. Bezpośrednio w funkcji
Z.TEST
się nie da. Mam znacznie lepsze, i do tego całkowicie darmowe, narzędzie w postaci R. Excel - rower z hipermarketu, który rozleci się po \(\displaystyle{ 100}\) km jazdy. R - profesjonalny rower kolarski.Osobiście śmiem sądzić, że w Excelu hipoteza alternatywna jest dobierana automatycznie według danych uzyskanych w próbie. Jeśli średnia z próby jest mniejsza niż średnia hipotetyczna, dobiera się hipotezę alternatywną lewostronną. Jeśli większa - prawostronną. Uwalnia to użytkownika od jakiegokolwiek myślenia i nie sprzyja dobrej interpretacji wyniku. Ludzie odpowiadają: wynik jest statystycznie istotny, bo tak wyszło w Excelu. Nie podadzą powodu statystycznego, ale powołają się na pseudo-autorytet Excela.
Program R, mimo że darmowy, jest używany do poważnych badań naukowych, w których potrzeba statystyki. Jest też mnóstwo prac pokazujących, że niektóre algorytmy statystyczne Excela są błędne i w statystyce Excel może służyć jedynie jako narzędzie zabawkowe. Chyba, że będzie się wszystko liczyć ręcznie (tzn. nie z użyciem funkcji), a to mija się z celem.
-
- Użytkownik
- Posty: 6
- Rejestracja: 18 lip 2008, o 21:02
- Płeć: Mężczyzna
- Lokalizacja: kielce
- Podziękował: 2 razy
Re: Wynik testu t studenta obliczony ze wzoru i w excelu
-> ależ prosz:)Dziękuję za komplement
Wielkie dzięki za wyczerpującą odpowiedź.
Jeśli chodzi o narzędzie to znajduję się na początku drogi zwanej modnie: 'data scientist', i tak niestety na początku kursu przebrnać trzeba przez Excela. Potem wchodzi R i dalej Python.
Co do samego rozwiązania, byłbym wdzięczny za rozwianie dwóch wątpliwości:
1.
-> czy przypadkiem powyżej nie mamy podstaw do odrzucenia hipotezy alternatywnej?Jest to taki poziom istotności, że dla poziomów istotności poniżej niego brak podstaw do odrzucenia hipotezy zerowej, zaś dla poziomów istotności powyżej niego mamy brak podstaw do odrzucenia hipotezy zerowej
?
2.
-> jak to się ma do tych słynnych 5% (p=0,05) przyjmowanych przez statystyków jako minimalne p dla którego hipoteza zerowa może zostać odrzucona?Interpretacja: na poziomach istotności poniżej 6\% brak podstaw do odrzucenia H_0 i różnica jest nieistotna. Dla poziomów istotności powyżej 6\% odrzucamy H_0 i różnica ta jest istotna.
...spróbuję odpowiedzieć sobie sam:
Za wiki:
-> Jeśli za krytyczny poziom istotności przyjmę te 5%, to fakt, że \(\displaystyle{ 6 > 5}\) sprawia, że wynik zinterpretować mogę następująco:Jeśli p-wartość jest większa, oznacza to, iż nie ma powodu do odrzucenia tzw. hipotezy zerowej H0, która zwykle stwierdza, że obserwowany efekt jest dziełem przypadku.
Wartość p dla t testu na poziomie 6% oznacza, ze nie ma powodu do odrzucenia hipotezy zerowej, zakładającej w tym przypadku, że rozbieżność średnich 180 i 196,9354839 jest dziełem przypadku. Jeśli natomiast natomiast wynik byłby niższy niż te 5% mógłbym założyć, że różnica nie była dziełem przypadku, a...no właśnie. Z czego właściwie wynikała? Z tego, że zbiory te są po prostu statystycznie różne?
Re: Wynik testu t studenta obliczony ze wzoru i w excelu
ad 1. Nie - chodzi o brak podstaw do odrzucenia hipotezy zerowej. Tłumaczenie dlaczego tak jest przerasta nieco ramy odpowiedzi na forum.
ad 2. To jest gust statystyków, ich jakieś doświadczenie. Osobiście za bardziej rzetelne uważam testowanie hipotez w oparciu o p-wartości. Tu bowiem można się konkretnie wypowiedzieć o poziomach istotności, przy których brak podstaw do odrzucenia \(\displaystyle{ H_0}\) lub przy których odrzucamy \(\displaystyle{ H_0}\). Nie narzuca się jakiegoś poziomu. Ponadto warto wiedzieć czym jest ten poziom istotności. To prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy \(\displaystyle{ H_0}\), gdy jest ona prawdziwa.
ad 2. To jest gust statystyków, ich jakieś doświadczenie. Osobiście za bardziej rzetelne uważam testowanie hipotez w oparciu o p-wartości. Tu bowiem można się konkretnie wypowiedzieć o poziomach istotności, przy których brak podstaw do odrzucenia \(\displaystyle{ H_0}\) lub przy których odrzucamy \(\displaystyle{ H_0}\). Nie narzuca się jakiegoś poziomu. Ponadto warto wiedzieć czym jest ten poziom istotności. To prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy \(\displaystyle{ H_0}\), gdy jest ona prawdziwa.
Masz rację, tak interpretuje się p-wartości.> Jeśli za krytyczny poziom istotności przyjmę te 5%, to fakt, że 6 > 5 sprawia, że wynik zinterpretować mogę następująco:
Wartość p dla t testu na poziomie 6% oznacza, ze nie ma powodu do odrzucenia hipotezy zerowej, zakładającej w tym przypadku, że rozbieżność średnich 180 i 196,9354839 jest dziełem przypadku. Jeśli natomiast natomiast wynik byłby niższy niż te 5% mógłbym założyć, że różnica nie była dziełem przypadku, a...no właśnie.
Jakie zbiory? Odpowiadając na tak postawione pytanie musiałbym wróżyć z fusów. Po prostu średnia z próby jest za duża w stosunku do hipotetycznej i potwierdza to test Studenta.Z czego właściwie wynikała? Z tego, że zbiory te są po prostu statystycznie różne?
-
- Użytkownik
- Posty: 6
- Rejestracja: 18 lip 2008, o 21:02
- Płeć: Mężczyzna
- Lokalizacja: kielce
- Podziękował: 2 razy
Re: Wynik testu t studenta obliczony ze wzoru i w excelu
Teraz wszystko jasne. Jeszcze raz wielkie dzięki za pomoc.
Pozdrawiam!
Pozdrawiam!