Rozkład Chi, Test Chi i Gauss.

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Awatar użytkownika
Cervus
Użytkownik
Użytkownik
Posty: 15
Rejestracja: 27 lut 2011, o 21:00
Płeć: Mężczyzna
Lokalizacja: Łuków
Podziękował: 1 raz

Rozkład Chi, Test Chi i Gauss.

Post autor: Cervus »

Witam, jestem studentem pierwszego roku chemii i na laboratorium z fizyki mierzyłem się z "Badaniem refleksu eksperymentatora" (wciskanie przycisku od mignięcia diody do kolejnego mignięcia: 100prób w czasie pomiędzy mignięciami= 1sekundy, 100w zakresie 6sekund i 100 losowych badań 0,5-8s). Niestety plan roku jest ułożony o tyle dziwnie, że Gaussa i w ogóle matematykę potrzebną do tego mam dopiero w 2semestrze (stąd też zbulwersowanie prowadzącego do władz). Poświęciłem sporo czasu na rozwikłanie tego ale dalej niż rozkład gaussa nie potrafię się posunąć.

Czy ktoś potrafiłby wyjaśnić mi co muszę w ogóle wykonać mając następujące polecenie:

"Wyniki przedstawiamy na histogramach. Znajdujemy wartość średnią oraz odchylenie
średnie standardowe. Używając testu c2 testujemy hipotezę o zgodności otrzymanych
rozkładów z rozkładem Gaussa.
"

Dwa pierwsze zdania udało mi się pokonać ale największy problem mam z trzecim. O ile orientuje się na dziś to muszę do tego zastosować test chi, rozkład chi i rozkład normalny gaussa tyle tylko że nie wiem co z czym od czego i jak. Byłbym wdzięczny za jakiekolwiek próby uratowania mnie.
Awatar użytkownika
scyth
Użytkownik
Użytkownik
Posty: 6392
Rejestracja: 23 lip 2007, o 15:26
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 3 razy
Pomógł: 1087 razy

Rozkład Chi, Test Chi i Gauss.

Post autor: scyth »

Jeśli masz histogramy, to masz też podział obserwacji na klasy. Twoją hipotezą zerową jest (chyba), że próbka pochodzi z rozkładu normalnego \(\displaystyle{ X_i \sim N \left( E(X_i), s(X_i) \right)}\) - czyli z rozkładu o parametrach takich, jak wyestymowane.
114178.htm
chris_f
Użytkownik
Użytkownik
Posty: 2727
Rejestracja: 14 paź 2004, o 16:26
Płeć: Mężczyzna
Lokalizacja: podkarpacie
Podziękował: 3 razy
Pomógł: 945 razy

Rozkład Chi, Test Chi i Gauss.

Post autor: chris_f »

Znajdziesz to praktycznie w każdym podręczniku do statystyki.
Twoim zadaniem jest weryfikacja hipotezy nieparametrycznej o zgodności rozkładu empirycznego (otrzymanego z badań) z rozkładem teoretycznym (w tym przypadku rozkładem normalnym - lub inaczej nazywając rozkładem Gaussa).
Troszkę teorii: Stosowanie testów zgodności jest uprawnione, gdy:
- liczebność próby jest duża
- próba jest próbą prosta
- liczebności teoretyczne poszczególnych wariantów cechy (bądź przedziałów klasowych) nie może być zbyt mała - zazwyczaj przyjmuje się, że \(\displaystyle{ np_i\ge5,\ i=1,2,...,r}\)
- liczba wariantów cechy (liczba przedziałów klasowych) powinna być dostatecznie liczna - przyjmuje się, że \(\displaystyle{ r\ge5}\)
Wygląda na to, że w Twoim problemie te założenia są spełnione (liczebność próby wynosi 100) - tak na marginesie powinieneś weryfikować trzy hipotezy, osobno dla czasu 1 s, osobno dla 6 s i osobno dla losowego czasu 0,5-8 s.
Hipotezą zerową będzie hipoteza
\(\displaystyle{ H_0:\ F(x)=F_0(x)}\)
hipotezą alternatywną (dwustronną - w testach zgodności tak zawsze jest)
\(\displaystyle{ H_1:\ F(x)\neq F_0(x)}\)
gdzie
\(\displaystyle{ F(x)}\) - dystrybuanta rozkładu empirycznego badanej cechy
\(\displaystyle{ F_0(x)}\) - określona postać teoretycznej dystrybuanty.
Statystyka testowa ma postać
\(\displaystyle{ \chi^2=\sum\limits_{i=1}^r\frac{(n_i-np_i)^2}{np_i}}\)
gdzie:
\(\displaystyle{ n_i}\) - liczebność empiryczna poszczególnych wariantów (lub klas)
\(\displaystyle{ np_i}\) - liczebności teoretyczne badanej zmiennej losowej.
Statystyka testowa ma rozkład \(\displaystyle{ \chi^2}\) o \(\displaystyle{ r-k-1}\) stopniach swobody, \(\displaystyle{ r}\) to liczba wariantów (klas) badanej cechy, \(\displaystyle{ k}\) - liczba szacowanych z próby parametrów rozkładu.
Wartość obliczoną statystyki testowej \(\displaystyle{ \chi^2}\) porównujemy z wartością krytyczną \(\displaystyle{ \chi_{\alpha}^2}\) odczytaną z tablic na poziomie istotności \(\displaystyle{ \alpha}\) i określonej liczbie stopni swobody - i albo stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej, albo odrzucamy hipotezę zerową i przyjmujemy alternatywną.
To jest teoria (oczywiście pobieżna).
W Twoim problemie musisz to zrobić mniej więcej tak: (nie zamieściłeś tu wyników, ale przypuszczam, że wyniki badań masz pogrupowane w klasy (przedziały) - zresztą piszesz o histogramie).
Napiszę to na prostym przykładzie, wystarczy, że zmodyfikujesz to do swoich danych.

Zbadano \(\displaystyle{ n=200}\) osób pod względem czasu wykonania pewnego zadania. Otrzymano wyniki
\(\displaystyle{ \begin{array}{|c|c|c|c|c|c|}\hline
Czas\ [s]&1,0-1,4&1,4-1,8&1,8_2,2&2,2-2,6&2,6-3,0\\ \hline
Liczebnosc&15&45&70&50&20\\ \hline\end{array}}\)

Na poziomie istotności \(\displaystyle{ \alpha=0,05}\) należy zweryfikować hipotezę, że rozkład czasu wykonania zadania jest rozkładem normalnym (Gaussa).
Sprawdzaną hipotezą jest hipoteza \(\displaystyle{ H_0:\ F(x)=F_0(x)}\), gdzie \(\displaystyle{ F_0(x)}\) jest dystrybuantą rozkładu normalnego.
Z danych otrzymujemy średnią \(\displaystyle{ \bar{x}=2}\) i odchylenie \(\displaystyle{ s=0,43}\).
Wszystkie rachunki warto robić w tabelce, przy czym \(\displaystyle{ F(z_i)=F\left(\frac{x_i-\bar{x}}{s}\right)}\) jest dystrybuantą standaryzowanego rozkładu normalnego \(\displaystyle{ N(0,1)}\).
Można to robić bez standaryzacji (korzystając z wartości dystrybuanty rozkładu normalnego znajdującej się np. w Excelu), ale po standaryzacji wartości można odczytać z tablic - wtedy wystarczy tylko kalkulator i kartka papieru.
Dla wygody do obliczeń wykorzystam prawe końce klas (można wykorzystać środki lub lewe końce - to jest bez znaczenia).

\(\displaystyle{ \begin{array}{|c|c|c|c|c|c|c|}\hline
x_i&n_i&z_i&F(z_i)&p_i&np_i&\frac{(n_i-np_i)^2}{np_i}\\ \hline
1,4 & 15 & -1,39 & 0,082 & 0,082 & 16,4 & 0,12\\
1,8 & 45 & -0,46 & 0,323 & 0,241 & 48,2 & 0,21\\
2,2 & 70 & 0,46 & 0,677 & 0,354 & 70,8 & 0,01\\
2,6 & 50 & 1,39 & 0,918 & 0,241 & 48,2 & 0,07\\
3,0 & 20 & - & - & 0,082 & 16,4 & 079\\ \hline
Suma& 200 & - & - & 1,000 & 200 & \chi^2=1,2 \\ \hline \end{array}}\)


Ostatnia wartość \(\displaystyle{ p_5=0,082}\) bierze się stąd, że suma prawdopodobieństw musi wynosić 1, dlatego nie odczytujemy jej z tablic, tylko obliczamy jako \(\displaystyle{ 1-0,918}\).
Wartości \(\displaystyle{ F(z_i)}\) są odczytane z tablic rozkładu normalnego \(\displaystyle{ N(0,1)}\), prawdopodobieństwa liczymy ze wzoru \(\displaystyle{ p_i=F(z_i)-F(z_{i-1})}\).
Wartość krytyczną odczytujemy z tablic rozkładu \(\displaystyle{ \chi^2}\) przy poziomie istotności \(\displaystyle{ \alpha=0,05}\) dla \(\displaystyle{ 5-2-1}\) stopni swobody (tam jest 2 bo rozkład normalny opisany jest przez dwa parametry - średnią i odchylenie). Z tablic mamy \(\displaystyle{ \chi^2_\alpha=5,991}\).

No i mamy, że \(\displaystyle{ \chi^2=1,2 < \chi^2_\alpha=5,991}\) co oznacza, że nie ma podstaw do odrzucenia hipotezy zerowej, ze rozkład badanej cechy jest rozkładem normalnym (Gaussa).

Analogicznie robisz w swoim badaniu.
Aha, hipotezą alternatywną będzie \(\displaystyle{ H_1:\ F(x)\neq F_0(x)}\), czyli badana cecha nie ma rozkładu normalnego.
Awatar użytkownika
Cervus
Użytkownik
Użytkownik
Posty: 15
Rejestracja: 27 lut 2011, o 21:00
Płeć: Mężczyzna
Lokalizacja: Łuków
Podziękował: 1 raz

Rozkład Chi, Test Chi i Gauss.

Post autor: Cervus »

Bardzo, bardzo, bardzo dziękuję za odpowiedź. Wiem, że jest to w literaturze jednak czytanie jej jest dla mnie po prostu (jeszcze) zbyt trudne. Program ktoś konstruował tak, że do tej pory miałem kolokwium z wielomianów i ciągów a o 90%ach pojęć tu wprowadzonych nigdy nawet nie słyszałem. Kilka dni to niestety za mało, żebym był w stanie samodzielnie to opanować. To co napisałeś rozwiało początek mgły, jednak nadal miałbym pytania dotyczące Twojej odpowiedzi:

Jeśli mam porównać rozkład empiryczny czyli ten który wynika z moich danych, to skąd mam wziąć dane do rozkładu teoretycznego (czyli normalnego, czyli Gaussa)? Chyba podszedłem do tego od złej strony, bo obliczyłem i narysowałem w excelu rozkłady gaussa dla 1s, 6s i losowo, mam histogramy i na tym koniec a z Twojej wypowiedzi wynika, że jest to mi chyba nawet nie potrzebne?

Jeśli mój histogram jest zbudowany z takich wartości:
Zbiór danych (koszyk) [Częstość]
0,792 [1]
0,833666667 [0]
0,875333333 [2]
0,917 [8]
0,958666667 [12]
1,000333333 [24]
1,042 [26]
1,083666667 [17]
1,125333333 [5]
Więcej [4]

To liczba moich \(\displaystyle{ x_{i}}\) będzie wynosić 9 czy 10? Jeśli 10 to jak uwzględnić rubrykę "więcej"?
Czy jeśli \(\displaystyle{ x_{i}}\) histogramu 1sekunda wynosi 9 a histogramu 2sekundy 10 to rozwiązanie tego zadania jest możliwe?(sądzę, że tak jako, że hipotezy są formułowane oddzielnie ale chciałbym się upewnić).

PS: Czym jest poziom istotności? Na jakiej podstawie go dobrać?


(Jeszcze raz dziękuję za pomoc! Bezinteresowna pomoc to coś wielkiego)
chris_f
Użytkownik
Użytkownik
Posty: 2727
Rejestracja: 14 paź 2004, o 16:26
Płeć: Mężczyzna
Lokalizacja: podkarpacie
Podziękował: 3 razy
Pomógł: 945 razy

Rozkład Chi, Test Chi i Gauss.

Post autor: chris_f »

Może po kolei, bo sam sobie namieszałeś z danymi i ich interpretacją.
Po pierwsze: hipotezę o tym, ze rozkład empiryczny jest rozkładem Gaussa weryfikujesz osobno dla każdej próby, tzn. dla tej z 1 sekundą przeprowadzasz obliczenia, następnie dla drugiej próby (z 6 sekundami) i wreszcie dla trzeciej. Dla każdej z tych grup przeprowadzasz osobne obliczenia - na tym etapie nie łączysz ich. Dopiero dużo, dużo później, jeżeli chciałbyś przeprowadzać jakieś analizy to można by te wyniki porównywać i coś tam liczyć.
Teraz dane: nie bardzo rozumiem jak te dane uzyskałeś: czy to oznacza, że np. 12 osób osiągnęło wynik 0,958666667 ???
Wyniki musisz pogrupować w odpowiednie przedziały. Nie wierzę, że dwie osoby mogły uzyskać czas identyczny z dokładnością do 9 miejsc po przecinku. (Tak na marginesie to masz 99 wyników a nie 100).
Co robisz: patrząc na te wyniki, to można oszacować, że czasy są większe od 0,7 sekundy i mniejsze od 1,3 sekundy. Skrajny (pojedynczy wynik znacząco odbiegający od innych odrzuca się - przyczyny są najczęściej losowe, ktoś się zagapił, ziewnął, chciało mu się kichnąć, coś go zaswędziało, przycisk nie zadziałał itd.).
Zresztą mając swoje dane ustalasz wynik minimalny i maksymalny (odrzucając te absurdalne, skrajne), powiedzmy, że wyjdzie Ci, że wszystkie wyniki mieszczą się w przedziale 0,7-1,3. Teraz dzielisz ten zakres na klasy (przedziały) o równej długości, liczbę tych klas ustala się na różne sposoby, najczęściej stosuje się wzór
\(\displaystyle{ r\le 5\log n,\ k=1+3,222\log n}\)
albo tak jak niektórzy autorzy podają (w zależności od liczby danych)
dla \(\displaystyle{ n\in[40-60]}\) liczba klas wynosi 6-8, przy \(\displaystyle{ n\in[60-100]}\) liczba klas to 7 -10, liczność 100-200 daje liczbę klas 9-12, 200-500 liczba klas 12-17.
Ponieważ u Ciebie \(\displaystyle{ n=100}\) to wychodzi na to, że liczbę klas można przyjąć równą 8.
Oznacza to, że dostaniesz przedziały:
[0,700; 0,775]
[0,775; 0,850]
[0,850; 0,925]
[0,925; 1,000]
[1,000; 1,075]
[1,075; 1,150]
[1,150; 1,225]
[1,225; 1,300]
Teraz liczysz ile wyników wpadnie Ci do poszczególnego przedziały, to będzie liczność danej klasy.
Masz zatem \(\displaystyle{ x_i}\) (możesz tu przyjąć lewe końce przedziałów, prawe lub środki - to jest bez znaczenia) i liczności \(\displaystyle{ n_i}\). Średnią \(\displaystyle{ \bar{x}}\) i odchylenie standardowe \(\displaystyle{ s}\) obliczysz w zwykły sposób (kalkulatorem, arkuszem czy innym programem). Masz zatem dwie pierwsze kolumny z tej tabelki. Trzecią otrzymasz dokonując standaryzacji wykorzystując wzór
\(\displaystyle{ z_i=\frac{x_i-\bar{x}}{s}}\).
Teraz odczytujesz wartości teoretyczne rozkładu normalnego (z tablic dystrybuanty rozkładu normalnego). Np. dla \(\displaystyle{ z_1=-1,39}\) (w tym moim przykładzie można odczytać, że \(\displaystyle{ F(-1,39)=0,08226\approx0,082}\), podobnie odczytamy \(\displaystyle{ F(-0,46)=0,3228\approx0,323}\) itd.
Z tym, że te wartości \(\displaystyle{ z_i}\) musisz obliczyć.
Tablice dystrybuanty masz np. tu:

Kod: Zaznacz cały

http://www.google.pl/url?sa=t&rct=j&q=d
... TQ&cad=rja zresztą są praktycznie w każdym podręczniku czy zbiorze zadań.
Mając wartości \(\displaystyle{ F(z_i)}\) odczytane z tablic (dlatego to jest właśnie rozkład teoretyczny) obliczasz prawdopodobieństwa teoretyczne \(\displaystyle{ p_i}\), w ten sposób, że od wartości dystrybuanty \(\displaystyle{ F(z_i)}\) odejmujesz wartość dystrybuanty wcześniejszą \(\displaystyle{ F(z_{i-1})}\). Dla pierwszego prawdopodobieństwa nic nie odejmujesz (dlatego \(\displaystyle{ p_1=F(z_1)}\)) bo wcześniej nic nie ma. Z kolei ostatnie prawdopodobieństwo obliczasz odejmując od jedynki przedostatnią wartość dystrybuanty.
Mając te prawdopodobieństwa (teoretyczne) liczysz liczebności teoretyczne, mnożąc prawdopodobieństwo przez liczbę danych (czyli u Ciebie będzie to \(\displaystyle{ 100\cdot p_i}\), chyba, że niektóre dane odrzucisz, to wtedy może być np. 98 albo 95 itp.).
No i teraz wyliczasz ostatnią kolumnę, sumujesz i masz obliczoną wartość statystyki empirycznej \(\displaystyle{ \chi^2}\). Tak kończysz swoją część obliczeniową.
Teraz możesz przystąpić do weryfikacji swojej hipotezy. Hipotezy statystyczne weryfikujemy na pewnym ustalonym poziomie istotności (zwyczajowo oznaczanym przez \(\displaystyle{ \alpha}\). Co to takiego jest - możesz znaleźć w necie, wystarczy wklepać: weryfikacja hipotez, poziom istotności, poziom ufności, błąd pierwszego i drugiego rodzaju. Ale krótko:
weryfikując hipotezę zawsze możemy się pomylić. Poziom istotności mówi nam jak często popełnimy bład polegający na przyjęciu błędnej hipotezy zerowej. Np. poziom istotności 0,01 mówi, że przeciętnie pomylimy się raz na sto weryfikacji, poziom 0,05 oznacza możliwość pięciu błędów na 100,a poziom 0,001 dopuszcza 1 błąd na tysiąc.
Poziom ten ustala się przed badaniem statystycznym. Jak się go dobiera? Gdy mamy zweryfikować hipotezę o tym, ze nowy lek jest lepszy od starego, albo, że nowe łopatki w turbinie samolotu mają lepsze parametry to nie możemy pozwolić sobie na ryzyko błędu, bo jest to rzecz bardzo ważna i niebezpieczna, dlatego poziom istotności jest bardzo wysoki (0,001; 0,0005 i wyższy), natomiast gdy pracujemy w reklamie czy marketingu i weryfikujemy hipotezę o preferencjach klientów McDonalda (czy wolą Colę, czy sok, czy wodę mineralną) to tu poziom istotności może być znacznie niższy, bo nawet jak się pomylimy, to nikomu nic się nie stanie.
Zwyczajowo poziom istotności przyjmuje jedną z wartości: 0,1; 0,05; 0,02; 0,1; 0,05, 0,02; 0,01; 0,005; 0,001.
Mając już ustalony poziom istotności musimy jeszcze wiedzieć ile stopni swobody ma statystyka testowa. Wzór mówi, że jest to \(\displaystyle{ r-k-1}\), gdzie \(\displaystyle{ r}\) to liczba klas (czyli w tym przykładzie było by to 8, natomiast \(\displaystyle{ k}\) oznacza liczbę parametrów wyznaczających rozkład. Dla rozkładu normalnego będzie to 2, dla innych może być to inna liczba (np. 1 dla rozkładu Poissona).
Mając to wszystko odczytujemy z tablic rozkładu \(\displaystyle{ \chi^2}\) odpowiednią wartość, porównujemy ze statystyką testową i albo hipotezę zerową odrzucamy przyjmując alternatywną, albo stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej (UWAGA: nigdy nie używamy sformułowania, że przyjmujemy hipotezę zerową, tylko, ze nie ma podstaw do jej odrzucenia).
PS. Tablice rozkładu \(\displaystyle{ \chi^2}\) znajdziesz tu:

Kod: Zaznacz cały

http://www.google.pl/url?sa=t&rct=j&q=r
... qw&cad=rja albo w każdym podręczniku.
Awatar użytkownika
Cervus
Użytkownik
Użytkownik
Posty: 15
Rejestracja: 27 lut 2011, o 21:00
Płeć: Mężczyzna
Lokalizacja: Łuków
Podziękował: 1 raz

Rozkład Chi, Test Chi i Gauss.

Post autor: Cervus »

Ojeju! Dziękuję po stokroć! Wyszło! : ] Prościej się już tego nie da chyba wytłumaczyć, hehe.
Połowa problemu polegała w tym, że nieznając wzoru na ustalanie przedziałów histogram zrobiłem w excelu - stąd niewłaściwe przedziały i nieprawdziwe wyniki. Połowę pracy zrobiłem jak widać bez powodu ale grunt, że wreszcie to umiem. Idę liczyć c^2 dla kolejnych zbiorów danych. Bez Twojej pomocy zrobienie tego byłoby niemożliwe.


Jestem bardzo wdzięczny.
Pozdrawiam!-- 22 lis 2012, o 17:49 --Witam


Przepraszam, że odświeżam ten temat.

Chciałbym się jeszcze zapytać o jedną rzecz: (wracając do podanego zadania w tym temacie) Jak rozpatrzeć przypadek losowego klikania ?
Dla każdego przypadku (1s 2s 2,5s 4s itd) trzeba zrobić oddzielny histogram? Robiąc jeden wychodzi taki zbiór danych:
0,915 1,625 39
1,625 2,335 6
2,335 3,045 13
3,045 3,755 7
3,755 4,465 8
4,465 5,175 10
5,175 5,885 0
5,885 6,595 7
6,595 7,305 0
7,305 8,015 9

Liczenie z niego prawdopodobieństwa jest ok =1 ale już suma chi kwadrat jest równa 0.
ODPOWIEDZ