Testy chi-kwadrat, stopnie swobody/Tw. Pearsona

Tomason · Post autor: **Tomason** » 4 kwie 2010, o 14:41

Proszę usunąć post, zawiera błędne stwierdzenia. Zamieściłem już poprawną wersję, przepraszam za flooding.

Witam,
moim zadaniem jest udowodnienie, dlaczego w testach chi-kwadrat (testy zgodności, testy równości frakcji) odejmujemy za każdy estymowany parametr 1 stopień swobody?
1)mamy przy założeniu odpowiedniej hipotezy:
\(\displaystyle{ \sum_{i=1}^k\frac{\( N_i -np_i \)^2}{np_i} \sim {\chi}^2(k-1)}\)
w sytuacji kiedy \(\displaystyle{ p_i}\) są teoretycznymi prawdopodobieństwami (znanymi). Tutaj domyślam się, że 1 stopień swobody "gubimy" ponieważ wartość \(\displaystyle{ N_k}\) można wyliczyć z pozostałych, tzn. w dowodzie twierdzenia Pearsona, z tej częsci którą rozumiem, mamy przejście do bazy ortogonalnej i zamieniamy układ k-zmiennych losowych z zadanej przestrzeni probabilistycznej (skorelowanych) na układ k-1 zmiennych losowych, (ktorych suma generuje ten sam rozkład) nieskorelowanych, a ponieważ są to zmienne losowe o rozkładzie normalnym (postać bez kwadratów, w "granicy"), stąd mamy niezależność. Czy to dobry trop? Kłopot w tym, że postać dowodu, na której się opieram jest skomplikowana, dlatego moje pytania odnośnie tej części:
-czy ktoś jest w stanie przedstawić relatywnie prosty do przyswojenia dowód Tw. Pearsona (odnośnie rozkładu powyższej statystyki), tzn. dysponuje jakimiś materiałami (pdf,doc,książka) w których ten dowód jest przedstawiony, bądź też mogłby sam takowy dowód przeprowadzić i wytłumaczyć?
-czy moje wytłumaczenie, dlaczego odejmujemy 1 stopien swobody jest poprawne w sensie idei, tzn. czy moja intuicja jest zgodna z dowodem stricte formalnym?
2) analogicznie, ale dla 2 populacji \(\displaystyle{ N_{(i,1)}}\) oraz \(\displaystyle{ N_{(i,2)}}\) i=1,...,k.
przy założeniu odpowiedniej hipotezy:
\(\displaystyle{ \sum_{l=1}^2\sum_{i=1}^k\frac{\( N_{(i,l)} -np_i \)^2}{np_i} \sim {\chi}^2(2k-1-k)}\)
statystyka stosowana gdy chcemy sprawdzić czy frakcje klas dla obu populacji są jednakowe, ale nieznane. Wtedy mamy 2k zmiennych losowych (sumowanych), ale 2k-1-k stopni swobody! Pytania:
-dlaczego właśnie tyle stopni swobody, dlaczego je odejmujemy (intuicja) i jak to można udowodnić?
-czy ktoś posiada materiały, które mogły bgy mi pomóc zrozumieć dowód tego faktu, czy byłby w stanie wytłumaczyć (np. tutaj lub przez gg)?
Jeżeli ktoś jest obeznany w tej tematyce, dowodził już kiedyś tw. Pearsona lub fakt z drugiej statystyki odnośnie stopni swobody, bardzo prosze o odzew, jest to niezwykle dla mnie ważna i nagląca sprawa. Bardzo mile widziane materiały pomocnicze typu pdf, doc lub tytuły książek (przy czym proszę o pozycje, w których będzie to bezpośrednio wytłumaczone, z dowodem, a nie o książki z całą paletą testów chi-kwadrat, gdzie to sie tylko stosuje-kilka takich już przeczytałem;)).
Priorytetem jest oczywiście wytłumaczenie drugiej statystyki.
Pozdrawiam.