Proszę o pomoc, jak ładnie, poprawną polszczyzną napisać na czym polega wnioskowanie statystyczne?
No bo ja mniej więcej rozumiem, o co chodzi, ale nie wiem, jak to napisać ładnie, żeby mój profesor był zadowolony.
Mamy nieznany rozkład o gęstości \(\displaystyle{ f_{\theta}(x)}\) i wektor losowy \(\displaystyle{ X=(X_{1},..,X_{n})}\) (próba) z tego rozkładu. Gęstość ta zależy od parametru \(\displaystyle{ \theta}\) z przestrzeni parametrów \(\displaystyle{ \Theta}\). Próbujemy stwierdzić, jaki to jest rozkład poprzez estymowanie parametru \(\displaystyle{ \theta}\). \(\displaystyle{ X}\) jest próbą z owego rozkładu, jeżeli jego \(\displaystyle{ n}\) składowych jest parami niezależnych i z rozkładu o tej szukanej gęstości. \(\displaystyle{ X'}\) jest zbiorem wartości \(\displaystyle{ X}\)
Przestrzeń statystyczna to \(\displaystyle{ (X', B(X'), P(\theta \in \Theta))}\)
Zakładamy, że szukana gęstość jest różna dla różnych parametrów \(\displaystyle{ \theta}\).
Wnioskowanie statystyczne polega na identyfikacji \(\displaystyle{ \theta}\) na podstawie realizacji \(\displaystyle{ X}\) czyli próbki, czyli tego co się wylosowało. Istnieją 4 podstawowe zadania... i to jest już potem kolejne zagadnienie o estymacji punktowej.
Co jeszcze dopisać??
Wnioskowania statystyczne
- Niepokonana
- Użytkownik
- Posty: 1548
- Rejestracja: 4 sie 2019, o 11:12
- Płeć: Kobieta
- Lokalizacja: Polska
- Podziękował: 337 razy
- Pomógł: 20 razy
-
- Użytkownik
- Posty: 7925
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1674 razy
Re: Wnioskowania statystyczne
Wnioskowanie statystyczne
Wnioskowanie statystyczne jest działem statystyki. Obejmuje procedury badania , części populacji . Wyniki tych badań uogólnia się na całą zbiorowość.
Tak postępuje się , bo praktycznie przebadanie wszystkich elementów populacji nie zawsze jest możliwe na przykład, wtedy, gdy badanie jest niszczące, zbyt kosztowne, musi być wykonane w krótkim czasie i populacja jest nieskończona.
Podstawą wnioskowania statystycznego jest zbiór obserwacji lub zbiór wyników eksperymentu wykonywanego w celu zbadania pewnego obiektu lub zjawiska. Obserwacje, czy wyniki eksperymentu traktowane są jako wartości zmiennej losowej \(\displaystyle{ X }\) lub wektora losowego.
Taką zmienną nazywamy obserwowalną zmienną losową.
Niech \(\displaystyle{ \chi }\) oznacza zbiór wartości obserwowalnej zmiennej losowej \(\displaystyle{ X, }\) (przestrzeń zdarzeń elementarnych), a \(\displaystyle{ \ \ \mathcal{A} }\) niech będzie wyróżnionym \(\displaystyle{ \sigma }\) - ciałem podzbiorów (zdarzeń) zbioru \(\displaystyle{ \chi.}\)
Problemy statystyczne charakteryzują się tym, że rozkład prawdopodobieństwa zmiennej losowej \(\displaystyle{ X }\) nie jest zwykle znany.
Posiadane informacje pozwalają jedynie wyróżnić pewną rodzinę rozkładów \(\displaystyle{ \mathcal{P} = \{ P_{\theta}: \ \ \theta\in \Theta \} }\) określoną w przestrzeni \(\displaystyle{ \{ \chi, \mathcal{A} \} }\) do której ten rozkład należy.
Rozkłady z rodziny \(\displaystyle{ \mathcal{P} }\) indeksowane są parametrem \(\displaystyle{ \theta }\) należącym do pewnego zbioru \(\displaystyle{ \Theta. }\)
Przestrzeń parametrów \(\displaystyle{ \Theta }\) może być przestrzenią skończenie wymiarową lub nieskończenie wymiarową.
Przykładami rodziny rozkładów prawdopodobieństwa indeksowanych parametrem z przestrzeni skończenie wymiarowej są:
- rodzina rozkładów normalnych \(\displaystyle{ \{ \mathcal{N}(m, \sigma^2): m\in \RR, \ \ \sigma>0 \},}\)
Zbiór \(\displaystyle{ \theta = \{ (m, \sigma^2), \Theta = R\times (R^{+}\setminus\{0\} \} }\).
- rodzina rozkładów hipergeometryczmnych \(\displaystyle{ \{\mathcal{H}(x,N,M,n), x = 0,1,..., \min\{n, M\}\}.}\)
Zbiór \(\displaystyle{ \theta = \{ (N,M, n), \Theta = \NN\times \NN \times \NN\} }\).
Przykładem rodziny indeksowanych parametrem z przestrzeni nieskończenie wymiarowej jest rodzina wszystkich rozkładów określonych na \(\displaystyle{ \RR }\) mających ciągłą dystrybuantę. Zbiór \(\displaystyle{ \Theta }\) utożsamiamy z rodziną \(\displaystyle{ \mathcal{P}.}\)
Naszym celem jest wyróżnienie najbardziej wiarygodnych wartości parametru \(\displaystyle{ \theta, }\) jest to problem estymacji punktowej lub wyznaczenie takiego podzbioru \(\displaystyle{ \Theta, }\) w którym zawiera się parametr \(\displaystyle{ \theta }\) są to problemy estymacji za pomocą przedziałów ufności oraz problemy weryfikacji hipotez.
Trójkę \(\displaystyle{ (\chi, \mathcal{A}, \mathcal{P} ) }\) nazywamy przestrzenią statystyczną indukowaną przez zmienną losową \(\displaystyle{ X }\) lub modelem statystycznym.
W przykładzie pierwszym modelem statystycznym jest \(\displaystyle{ \{ \RR,\ \ f_{m,\sigma}= \frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2\right], m\in \RR, \sigma>0 \},}\)
W przykładzie drugim \(\displaystyle{ \left \{\RR, \ \ p(x,N, M, n) = \frac{{M\choose x}{N-M\choose n-x}}{{N\choose n}}, N, M,n, x \in \NN \right\}.}\)
Chcemy racjonalnie oszacować nieznany parametr \(\displaystyle{ \theta }\), będący wektorem o współrzędnych liczbowych.
Oszacowanie zależy od obserwacji i wybranego modelu statystycznego.
Oznaczamy je \(\displaystyle{ \hat{\theta}(X) }\) lub \(\displaystyle{ \hat{\theta}}\) i nazywamy estymatorem parametru \(\displaystyle{ \theta.}\)
Jeżeli obserwacje, badania są realizacjami zmiennych losowych, to i estymator jest realizacją zmiennej losowej.
Chcemy, aby to oszacowanie było dobre.
Termin "dobre" jest nieprecyzyjny dlatego formułuje się kryteria jakości estymatora.
Metoda podstawiania częstości
Nie umiemy wyznaczyć prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) natomiast dysponujemy informacją jak często pojawia się to zdarzenie w próbie.
Częstość zdarzenia wynosi \(\displaystyle{ f(A, X) = \frac{ | \{i: x_{i} \in A\}|}{n} .}\)
Prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) można wyrazić przez funkcję \(\displaystyle{ p(\theta, X) }\).
Gdy cecha obserwowana jest dyskretna, to \(\displaystyle{ p(\theta, A) = \sum_{x\in A} p(\theta, x),}\) a gdy cecha jest ciągła to \(\displaystyle{ p(\theta, A) = \int_{A} p(\theta, x)dx. }\)
Zasadą tworzenia próby w statystyce jest jej reprezentatywność wobec populacji- próba jest utworzona na obraz i podobieństwo populacji.
Oznacza to, że dla każdego \(\displaystyle{ A }\) powinna zachodzić przybliżona równość \(\displaystyle{ p(\theta, A) \approx f(A, X).}\)
Metoda podstawiania częstości polega na rozwiązaniu równania:
\(\displaystyle{ p(\theta, A) = f(A, X) }\) z niewiadomą \(\displaystyle{ \theta.}\)
Gdy parametr \(\displaystyle{ \theta }\) jest wielowymiarowy wtedy wybieramy kilka różnych zdarzeń związanych z obserwowaną cechą.
Racjonalność takiego wyboru estymatora związana jest z Prawem Wielkich Liczb.
Wynika z niego następujący wniosek nazywany zgodnością według Fishera:
Gdy wielkość próbki zmierza do nieskończoności to częstości \(\displaystyle{ f(A, X) }\) zdarzenia \(\displaystyle{ A }\) zmierzają z prawdopodobieństwem 1 do prawdopodobieństwa \(\displaystyle{ p(\theta, A) }\) tego zdarzenia
\(\displaystyle{ P[\lim_{n\to \infty} f(A,X) = p(\theta, A)] = 1.}\)
Przykład 1 (szacowanie ryb w jeziorze).
Doświadczenie polega na tym, że \(\displaystyle{ 1000 }\) razy powtarzamy wyławianie ryb. Wektor danych ma \(\displaystyle{ 1000 }\) współrzędnych.
Cecha, którą mierzymy w i-tym powtórzeniu ma dwie wartości:
\(\displaystyle{ 1, }\) gdy za i-tym razem wyłowiono oznaczoną rybę.
\(\displaystyle{ 0, }\) gdy za i-tym razem wyłowiono rybę nieoznaczoną.
Zdarzenie \(\displaystyle{ A }\) polega na tym, że łowiąc jedną rybę, wyłowi się oznaczoną.
\(\displaystyle{ p(N,A) = \frac{{1200 \choose 1}{N-1\choose 999}}{{N\choose 1000}\cdot 1000} = \frac{1200}{N}.}\)
Niezależnie od momentu, w którym łowiono rybę.
Niech frakcja zdarzenia \(\displaystyle{ A }\) w \(\displaystyle{ 1000 }\) doświadczeń wynosi \(\displaystyle{ f(A,X) = \frac{|\{i: x_{i} =1\}|}{1000} = \frac{40}{1000}}\)
Z równania \(\displaystyle{ \frac{1200}{N} = \frac{40}{1000} }\) otrzymamy oszacowanie liczby ryb w jeziorze równe \(\displaystyle{ \hat{N} = \frac{1200\cdot 1000}{40} = 3000.}\)
Metoda momentów
Moment o numerze \(\displaystyle{ r }\) (r-ty moment) zmiennej losowej \(\displaystyle{ Z }\) jest to liczba \(\displaystyle{ \mu_{r} = E(Z^{r}), \ \ E(Z^{r})<\infty. }\)
Metoda momentów polega na rozwiązaniu układu równań:
\(\displaystyle{ \begin{cases} \mu_{r_{1}} = m_{r_{1}} \\ ..........\\ \mu_{r_{k}} = m_{r_{k}} \end{cases} }\)
Liczba wskaźników \(\displaystyle{ r_{i}, \ \ i=1, ... k }\) zależy od ilości parametrów, które mamy oszacować.
Przykład 2(ryby w jeziorze)
Niech
\(\displaystyle{ X_{i} = \begin{cases} 1, \ \ \text{gdy i-ta ryba złowiona ryba jest oznakowana} \\ 0, \ \ \text{gdy i-ta ryba złowiona ryba nie jest oznakowana} \end{cases} }\)
Zmienne losowe mają ten sam rozkład o wartości oczekiwanej \(\displaystyle{ E(X_{i}) = \frac{1200}{N}. }\)
Pierwszy moment z próby wynosi \(\displaystyle{ m_{1} = \frac{x_{1}+ ...+x_{1000}}{1000} = 0,04.}\)
Z równania momentów \(\displaystyle{ \frac{1200}{N} = 0,04, }\) a stąd \(\displaystyle{ \hat{N} = 3000.}\)
Metoda największej wiarygodności
W modelu statystycznym \(\displaystyle{ p(\theta, X) }\) określa z jakim prawdopodobieństwem w danym doświadczeniu można uzyskać wynik \(\displaystyle{ X.}\)
Jeśli ustalimy \(\displaystyle{ X }\) a zmieniać będziemy \(\displaystyle{ \theta,}\) to funkcja \(\displaystyle{ l_{X}(\theta) = p(\theta, X) }\) opisuje wiarygodność modelu \(\displaystyle{ \theta }\) względem wyniku \(\displaystyle{ X.}\)
Funkcja \(\displaystyle{ l_{X}(\theta) }\) nazywa się funkcją wiarygodnosci.
Definicja 1 Funkcja \hat{\theta}(X) jest estymatorem największej wiarygodności pparametru \(\displaystyle{ \theta, }\)
gdy
\(\displaystyle{ l_{X}(\hat{\theta}) \leq l_{X}(\theta) \longleftrightarrow p(\hat{\theta},X) \leq p(\theta, X).}\)
Dla prób prostych to znaczy wektorów danych będących realizacją ciągu niezależnych zmiennych losowych o tym samym rozkładzie - funkcję wiarygodności zapisujemy jako iloczyn
\(\displaystyle{ l_{X}(\theta) = \prod_{i=1}^{n} p(\theta,x_{i}) }\)
W praktyce statystycznej dosyć często zamiast szukać maksimum funkcji wiarygodności szuka się maksimum logarytmu tej funkcji.
Wtedy
\(\displaystyle{ \log(l_{X}(\theta)) = \sum_{i=1}^{n} log[p(\theta,x_{i})] }\)
i niewygodny iloczyn zamienia się na sumę.
Przykład 3(ryby w jeziorze)
Funkcja wiarygodności \(\displaystyle{ l_{x}(N) = \frac{{k\choose x}{N-k\choose n-x}}{{N\choose n}} }\)
gdzie
\(\displaystyle{ N }\) jest nieznaną liczbą ryb w jeziorze,
\(\displaystyle{ k }\) liczbą ryb oznakowanych,
\(\displaystyle{ n }\) liczbą ryb wyłwionych
\(\displaystyle{ x }\) liczbą ryb wyłowionych i oznakowanych.
Iloraz wiarygodności
\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} = \frac{(N+1-k)(N+1-n)}{N+1-k-n+x)(N+1)} }\)
\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} \leq 1 \longleftrightarrow N > \frac{kx}{n} -1 }\)
Stąd wynika rozwiązanie w postaci estymatora największej wiarygodności
\(\displaystyle{ \hat{N}(x) = \begin{cases} \left[ \frac{kx}{n} \right ] \ \ \text{gdy} \frac{kx}{n} \notin \ZZ \\ \frac{kx}{n} \ \ \text{lub} \ \ \frac{kx}{n}-1 \ \ \text{gdy} \ \ \frac{kx}{n} \notin \ZZ \end{cases} }\)
W naszym konkretym przypadku \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} = 3000 }\) lub \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} -1 = 3000 -1= 2999.}\)
Estymacja przedziałowa
Bardziej realistyczne jest oszacowanie przedziałowe. Takimi oszacowaniami posługują się fizycy, inżynierowie, biologowie, socjologowie ..., chcąc skompensować błędy pomiarowe.
Niech \(\displaystyle{ \chi }\) będzie zbiorem obserwacji , \(\displaystyle{ a(X), b(X) }\) funkcjami rzeczywistymi określonymi na zbiorze obserwacji \(\displaystyle{ \chi }\) takimi, że \(\displaystyle{ a(X)\leq b(X). }\)
Definicja 2 Przedziałem ufności dla parametru \(\displaystyle{ \theta }\) na poziomie ufności \(\displaystyle{ \gamma }\) nazywamy przedział \(\displaystyle{
[a(X), \ \ b(X)] }\) spełniający warunek:
\(\displaystyle{ P(\theta_{0}\in [a(X), b(X)] |\theta = \theta_{0}) \geq \gamma. }\)
Wielkość \(\displaystyle{ d(X) = \frac{b(X)-a(X)}{2} }\) nazywamy dokładnością przedziału ufności, \(\displaystyle{ m(X) = \frac{b(X)+a(X)}{2} }\) jego środkiem.
Często przedział ufności zapisuje się w postaci \(\displaystyle{ m(X)\pm d(X).}\)
Przykład 4
W gazecie Wyborczej pojawiły wyniki sondażu na temat '' Czy urlop macierzyński powinien zostać wydłużony. Zapytano 1000 Polaków powyżej 15 lat. 73 % respondentów odpowiedziało TAK. 11\% NIE i16% nie miało zdania w tej sprawie.
W komentarzu gazety napisano, że \(\displaystyle{ '' \frac{3}{4} }\) Polaków jest za".
Czy Gazeta miała prawo tak napisać?
Wektor obserwacji \(\displaystyle{ X }\) ma latex] 1000 [/latex] składowych \(\displaystyle{ x_{1},...,x_{1000} }\) w ktorym każda odpowiada wypowiedzi jednego z respondetów.
Przyporządkujmy odpowiedzi TAK liczbę \(\displaystyle{ 1}\) pozostałym odpowiedzią liczbę \(\displaystyle{ 0.}\)
Odpowiedzi \(\displaystyle{ x_{1}, ..., x_{1000} }\) są próbą prostą o rozkładzie \(\displaystyle{ P(\{X =1\})= \theta. }\)
W Gazecie napisano, że \(\displaystyle{ \theta = 0,75. }\)
Wyniki sondażu oznaczają, że
\(\displaystyle{ \overline{X} = \frac{1}{1000}\left(x_{1}+ ...+x_{1000}\right )= 0,73.}\)
Skorzystamy z Centralnego Twierdzenia Granicznego dla przypadku \(\displaystyle{ \frac{\overline{X} -E(\overline{X})}{Var(\overline{X})} \simeq Z}\) (asymptotyczną równość według prawdopodobiestwa).
\(\displaystyle{ Z }\) ma standaryzowany rozkład normalny (liczba 1000 jest dostatecznie duża, aby można było przyjąć przybliżenie rozkładem normalnym)
Stąd
\(\displaystyle{ \theta(1-\theta) \leq \frac{1}{4} }\) dla \(\displaystyle{ 0\leq \theta \leq 1.}\)
\(\displaystyle{ 0,95\leq P\left(-1,96 \leq \frac{\overline{X} - E(\overline{X})}{Var(\overline{X})} \leq 1,96\right) = P \left( -1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{\theta (1-\theta)}{1000}}} \leq 1,96 \right) \leq P\left(-1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{1}{4000}}}\leq 1,96\right) = }\)
\(\displaystyle{ = P\left( \overline{X} -\frac{1,96}{\sqrt{4000}} \leq \theta \overline{X} + \frac{1,96}{\sqrt{4000}} \right) = P(0,73-0,031\leq \theta \leq 0,73+0,031).}\)
Przedział ufności dla prawdopodobieństwa odpowiedzi TAK ma postać \(\displaystyle{ [0,699, \ \ 0,761]. }\) zawiera więc wielkość \(\displaystyle{ 0,75 }\) podaną przez Gazetę.
W powyższym przykładzie wyznaczyliśmy dokładność sondażu równą \(\displaystyle{ 0,031 = 3,1\% }\) dla nieznanej wartości parametru \(\displaystyle{ \theta.}\)
Ogólne standardy badania opinii publicznej zakładają, że należy dobrać tak dużą próbę , aby na poziomie \(\displaystyle{ 0,95 }\) dokładność przedziału ufności nie przkraczała \(\displaystyle{ 3\%. }\)
Przedziały ufności buduje się nie tylko dla wartości średnich, ale także dla wariancji, odchylenia standardowego frakcji (proporcji).
Weryfikacja hipotez
Weryfikacja hipotez statystycznych polega na:
- sformułowaniu hipotez: hipotezy zerowej \(\displaystyle{ H_{0}: \theta = \theta_{0} }\) i alternatywnej \(\displaystyle{ H_{1}: \theta \neq \theta_{0} }\) dotyczących wartości parametru \(\displaystyle{ \theta,}\)
-wyborze statystyki testowej \(\displaystyle{ Z }\) o rozkładzie zależnym od parametru \(\displaystyle{ \theta, }\) której rozkład jest znany dla każdego \(\displaystyle{ \theta }\)
- wyborze poziomu istotności testu \(\displaystyle{ \alpha }\) najczęściej \(\displaystyle{ \alpha = 0.01, \ \ \alpha = 0,05.}\)
- wyznaczeniu zbioru krytycznego \(\displaystyle{ \mathcal{K} }\) takiego , że prawdopodobieństwo iż statystyka przyjmie wartość ze zbioru krytycznego , przy założeniu, że prawdziwa jest hipoteza zerowa równe jest \(\displaystyle{ \alpha.}\)
\(\displaystyle{ P(Z) \in \mathcal{K} | \theta = \theta{0}) = \alpha.}\)
- obliczeniu wartości \(\displaystyle{ z_{n} }\) statystyki dla pobranej próby,
- podjęciu decyzji :
- odrzuceniu \(\displaystyle{ H_{0},}\) jeśli \(\displaystyle{ z_{n} \in \mathcal{K},}\) - przyjęciu \(\displaystyle{ H_{1}}\)
- przyjęciu \(\displaystyle{ H_{0}, }\) jeśli \(\displaystyle{ z_{n}\notin \mathcal{K} }\)- odrzuceniu \(\displaystyle{ H_{1}.}\)
Przykład 5
Niech \(\displaystyle{ X^{T} = \{ 5.1, 5.5, 4.9, 5,3\} \ \ kg }\) będzie próbą prostą wagi pięciu wylosowanych szczeniąt pewnej rasy o rozkładzie normalnym \(\displaystyle{ \mathcal{N}(m, 1 \ \ kg) }\)
Na poziomie istotności \(\displaystyle{ \alpha = 0,05 }\) testujemy hipotezę
\(\displaystyle{ H_{0}: \ \ m_{0} = 5 \ \ kg }\)
przeciwko hipotezie alternatywnej
\(\displaystyle{ H_{1}: \ \ m_{0}= 6 \ \ kg.}\)
Statystyka testowa:
\(\displaystyle{ Z = \frac{ \overline{X} - m_{0}}{\frac{1}{\sqrt{n}}}. }\)
Wartość statystyki testowej dla danych z próby:
\(\displaystyle{ z_{4} = \frac{5,2 -5}{\frac{1}{2}} = 0,4.}\)
Zbiór krytyczny testu \(\displaystyle{ 1 - \phi(k) = 0,05 \rightarrow k =1,65. }\)
Decyzja:
\(\displaystyle{ z_{4} = 0,4 \notin \mathcal{K} = [1,65, \ \ +\infty) }\)
Nie ma powodu aby odrzucić hipotezę zerową, że średna wartość wagi szczeniąt pewnej rasy wynosi \(\displaystyle{ m =\ \ 5kg.}\)
Dwa przedstawione pokrótce działy: teoria estymacji i teoria weryfikacji hipotez statystycznych składają na klasyczną statystykę matematyczną.
Literatura :
Józef Penc. Encyklopedia Zarządzania PWN Warszawa 1995.
Ryszard Zieliński. Siedem wykładów wprowadzających do statystyki matematycznej. PWN Warszawa 2004.
Mirosław Krzysko. STATYSTYKA MATEMATYCZNA. Wydawnictwo UAM. Poznań 1996.
Wnioskowanie statystyczne jest działem statystyki. Obejmuje procedury badania , części populacji . Wyniki tych badań uogólnia się na całą zbiorowość.
Tak postępuje się , bo praktycznie przebadanie wszystkich elementów populacji nie zawsze jest możliwe na przykład, wtedy, gdy badanie jest niszczące, zbyt kosztowne, musi być wykonane w krótkim czasie i populacja jest nieskończona.
Podstawą wnioskowania statystycznego jest zbiór obserwacji lub zbiór wyników eksperymentu wykonywanego w celu zbadania pewnego obiektu lub zjawiska. Obserwacje, czy wyniki eksperymentu traktowane są jako wartości zmiennej losowej \(\displaystyle{ X }\) lub wektora losowego.
Taką zmienną nazywamy obserwowalną zmienną losową.
Niech \(\displaystyle{ \chi }\) oznacza zbiór wartości obserwowalnej zmiennej losowej \(\displaystyle{ X, }\) (przestrzeń zdarzeń elementarnych), a \(\displaystyle{ \ \ \mathcal{A} }\) niech będzie wyróżnionym \(\displaystyle{ \sigma }\) - ciałem podzbiorów (zdarzeń) zbioru \(\displaystyle{ \chi.}\)
Problemy statystyczne charakteryzują się tym, że rozkład prawdopodobieństwa zmiennej losowej \(\displaystyle{ X }\) nie jest zwykle znany.
Posiadane informacje pozwalają jedynie wyróżnić pewną rodzinę rozkładów \(\displaystyle{ \mathcal{P} = \{ P_{\theta}: \ \ \theta\in \Theta \} }\) określoną w przestrzeni \(\displaystyle{ \{ \chi, \mathcal{A} \} }\) do której ten rozkład należy.
Rozkłady z rodziny \(\displaystyle{ \mathcal{P} }\) indeksowane są parametrem \(\displaystyle{ \theta }\) należącym do pewnego zbioru \(\displaystyle{ \Theta. }\)
Przestrzeń parametrów \(\displaystyle{ \Theta }\) może być przestrzenią skończenie wymiarową lub nieskończenie wymiarową.
Przykładami rodziny rozkładów prawdopodobieństwa indeksowanych parametrem z przestrzeni skończenie wymiarowej są:
- rodzina rozkładów normalnych \(\displaystyle{ \{ \mathcal{N}(m, \sigma^2): m\in \RR, \ \ \sigma>0 \},}\)
Zbiór \(\displaystyle{ \theta = \{ (m, \sigma^2), \Theta = R\times (R^{+}\setminus\{0\} \} }\).
- rodzina rozkładów hipergeometryczmnych \(\displaystyle{ \{\mathcal{H}(x,N,M,n), x = 0,1,..., \min\{n, M\}\}.}\)
Zbiór \(\displaystyle{ \theta = \{ (N,M, n), \Theta = \NN\times \NN \times \NN\} }\).
Przykładem rodziny indeksowanych parametrem z przestrzeni nieskończenie wymiarowej jest rodzina wszystkich rozkładów określonych na \(\displaystyle{ \RR }\) mających ciągłą dystrybuantę. Zbiór \(\displaystyle{ \Theta }\) utożsamiamy z rodziną \(\displaystyle{ \mathcal{P}.}\)
Naszym celem jest wyróżnienie najbardziej wiarygodnych wartości parametru \(\displaystyle{ \theta, }\) jest to problem estymacji punktowej lub wyznaczenie takiego podzbioru \(\displaystyle{ \Theta, }\) w którym zawiera się parametr \(\displaystyle{ \theta }\) są to problemy estymacji za pomocą przedziałów ufności oraz problemy weryfikacji hipotez.
Trójkę \(\displaystyle{ (\chi, \mathcal{A}, \mathcal{P} ) }\) nazywamy przestrzenią statystyczną indukowaną przez zmienną losową \(\displaystyle{ X }\) lub modelem statystycznym.
W przykładzie pierwszym modelem statystycznym jest \(\displaystyle{ \{ \RR,\ \ f_{m,\sigma}= \frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2\right], m\in \RR, \sigma>0 \},}\)
W przykładzie drugim \(\displaystyle{ \left \{\RR, \ \ p(x,N, M, n) = \frac{{M\choose x}{N-M\choose n-x}}{{N\choose n}}, N, M,n, x \in \NN \right\}.}\)
Chcemy racjonalnie oszacować nieznany parametr \(\displaystyle{ \theta }\), będący wektorem o współrzędnych liczbowych.
Oszacowanie zależy od obserwacji i wybranego modelu statystycznego.
Oznaczamy je \(\displaystyle{ \hat{\theta}(X) }\) lub \(\displaystyle{ \hat{\theta}}\) i nazywamy estymatorem parametru \(\displaystyle{ \theta.}\)
Jeżeli obserwacje, badania są realizacjami zmiennych losowych, to i estymator jest realizacją zmiennej losowej.
Chcemy, aby to oszacowanie było dobre.
Termin "dobre" jest nieprecyzyjny dlatego formułuje się kryteria jakości estymatora.
Metoda podstawiania częstości
Nie umiemy wyznaczyć prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) natomiast dysponujemy informacją jak często pojawia się to zdarzenie w próbie.
Częstość zdarzenia wynosi \(\displaystyle{ f(A, X) = \frac{ | \{i: x_{i} \in A\}|}{n} .}\)
Prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) można wyrazić przez funkcję \(\displaystyle{ p(\theta, X) }\).
Gdy cecha obserwowana jest dyskretna, to \(\displaystyle{ p(\theta, A) = \sum_{x\in A} p(\theta, x),}\) a gdy cecha jest ciągła to \(\displaystyle{ p(\theta, A) = \int_{A} p(\theta, x)dx. }\)
Zasadą tworzenia próby w statystyce jest jej reprezentatywność wobec populacji- próba jest utworzona na obraz i podobieństwo populacji.
Oznacza to, że dla każdego \(\displaystyle{ A }\) powinna zachodzić przybliżona równość \(\displaystyle{ p(\theta, A) \approx f(A, X).}\)
Metoda podstawiania częstości polega na rozwiązaniu równania:
\(\displaystyle{ p(\theta, A) = f(A, X) }\) z niewiadomą \(\displaystyle{ \theta.}\)
Gdy parametr \(\displaystyle{ \theta }\) jest wielowymiarowy wtedy wybieramy kilka różnych zdarzeń związanych z obserwowaną cechą.
Racjonalność takiego wyboru estymatora związana jest z Prawem Wielkich Liczb.
Wynika z niego następujący wniosek nazywany zgodnością według Fishera:
Gdy wielkość próbki zmierza do nieskończoności to częstości \(\displaystyle{ f(A, X) }\) zdarzenia \(\displaystyle{ A }\) zmierzają z prawdopodobieństwem 1 do prawdopodobieństwa \(\displaystyle{ p(\theta, A) }\) tego zdarzenia
\(\displaystyle{ P[\lim_{n\to \infty} f(A,X) = p(\theta, A)] = 1.}\)
Przykład 1 (szacowanie ryb w jeziorze).
Doświadczenie polega na tym, że \(\displaystyle{ 1000 }\) razy powtarzamy wyławianie ryb. Wektor danych ma \(\displaystyle{ 1000 }\) współrzędnych.
Cecha, którą mierzymy w i-tym powtórzeniu ma dwie wartości:
\(\displaystyle{ 1, }\) gdy za i-tym razem wyłowiono oznaczoną rybę.
\(\displaystyle{ 0, }\) gdy za i-tym razem wyłowiono rybę nieoznaczoną.
Zdarzenie \(\displaystyle{ A }\) polega na tym, że łowiąc jedną rybę, wyłowi się oznaczoną.
\(\displaystyle{ p(N,A) = \frac{{1200 \choose 1}{N-1\choose 999}}{{N\choose 1000}\cdot 1000} = \frac{1200}{N}.}\)
Niezależnie od momentu, w którym łowiono rybę.
Niech frakcja zdarzenia \(\displaystyle{ A }\) w \(\displaystyle{ 1000 }\) doświadczeń wynosi \(\displaystyle{ f(A,X) = \frac{|\{i: x_{i} =1\}|}{1000} = \frac{40}{1000}}\)
Z równania \(\displaystyle{ \frac{1200}{N} = \frac{40}{1000} }\) otrzymamy oszacowanie liczby ryb w jeziorze równe \(\displaystyle{ \hat{N} = \frac{1200\cdot 1000}{40} = 3000.}\)
Metoda momentów
Moment o numerze \(\displaystyle{ r }\) (r-ty moment) zmiennej losowej \(\displaystyle{ Z }\) jest to liczba \(\displaystyle{ \mu_{r} = E(Z^{r}), \ \ E(Z^{r})<\infty. }\)
Metoda momentów polega na rozwiązaniu układu równań:
\(\displaystyle{ \begin{cases} \mu_{r_{1}} = m_{r_{1}} \\ ..........\\ \mu_{r_{k}} = m_{r_{k}} \end{cases} }\)
Liczba wskaźników \(\displaystyle{ r_{i}, \ \ i=1, ... k }\) zależy od ilości parametrów, które mamy oszacować.
Przykład 2(ryby w jeziorze)
Niech
\(\displaystyle{ X_{i} = \begin{cases} 1, \ \ \text{gdy i-ta ryba złowiona ryba jest oznakowana} \\ 0, \ \ \text{gdy i-ta ryba złowiona ryba nie jest oznakowana} \end{cases} }\)
Zmienne losowe mają ten sam rozkład o wartości oczekiwanej \(\displaystyle{ E(X_{i}) = \frac{1200}{N}. }\)
Pierwszy moment z próby wynosi \(\displaystyle{ m_{1} = \frac{x_{1}+ ...+x_{1000}}{1000} = 0,04.}\)
Z równania momentów \(\displaystyle{ \frac{1200}{N} = 0,04, }\) a stąd \(\displaystyle{ \hat{N} = 3000.}\)
Metoda największej wiarygodności
W modelu statystycznym \(\displaystyle{ p(\theta, X) }\) określa z jakim prawdopodobieństwem w danym doświadczeniu można uzyskać wynik \(\displaystyle{ X.}\)
Jeśli ustalimy \(\displaystyle{ X }\) a zmieniać będziemy \(\displaystyle{ \theta,}\) to funkcja \(\displaystyle{ l_{X}(\theta) = p(\theta, X) }\) opisuje wiarygodność modelu \(\displaystyle{ \theta }\) względem wyniku \(\displaystyle{ X.}\)
Funkcja \(\displaystyle{ l_{X}(\theta) }\) nazywa się funkcją wiarygodnosci.
Definicja 1 Funkcja \hat{\theta}(X) jest estymatorem największej wiarygodności pparametru \(\displaystyle{ \theta, }\)
gdy
\(\displaystyle{ l_{X}(\hat{\theta}) \leq l_{X}(\theta) \longleftrightarrow p(\hat{\theta},X) \leq p(\theta, X).}\)
Dla prób prostych to znaczy wektorów danych będących realizacją ciągu niezależnych zmiennych losowych o tym samym rozkładzie - funkcję wiarygodności zapisujemy jako iloczyn
\(\displaystyle{ l_{X}(\theta) = \prod_{i=1}^{n} p(\theta,x_{i}) }\)
W praktyce statystycznej dosyć często zamiast szukać maksimum funkcji wiarygodności szuka się maksimum logarytmu tej funkcji.
Wtedy
\(\displaystyle{ \log(l_{X}(\theta)) = \sum_{i=1}^{n} log[p(\theta,x_{i})] }\)
i niewygodny iloczyn zamienia się na sumę.
Przykład 3(ryby w jeziorze)
Funkcja wiarygodności \(\displaystyle{ l_{x}(N) = \frac{{k\choose x}{N-k\choose n-x}}{{N\choose n}} }\)
gdzie
\(\displaystyle{ N }\) jest nieznaną liczbą ryb w jeziorze,
\(\displaystyle{ k }\) liczbą ryb oznakowanych,
\(\displaystyle{ n }\) liczbą ryb wyłwionych
\(\displaystyle{ x }\) liczbą ryb wyłowionych i oznakowanych.
Iloraz wiarygodności
\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} = \frac{(N+1-k)(N+1-n)}{N+1-k-n+x)(N+1)} }\)
\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} \leq 1 \longleftrightarrow N > \frac{kx}{n} -1 }\)
Stąd wynika rozwiązanie w postaci estymatora największej wiarygodności
\(\displaystyle{ \hat{N}(x) = \begin{cases} \left[ \frac{kx}{n} \right ] \ \ \text{gdy} \frac{kx}{n} \notin \ZZ \\ \frac{kx}{n} \ \ \text{lub} \ \ \frac{kx}{n}-1 \ \ \text{gdy} \ \ \frac{kx}{n} \notin \ZZ \end{cases} }\)
W naszym konkretym przypadku \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} = 3000 }\) lub \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} -1 = 3000 -1= 2999.}\)
Estymacja przedziałowa
Bardziej realistyczne jest oszacowanie przedziałowe. Takimi oszacowaniami posługują się fizycy, inżynierowie, biologowie, socjologowie ..., chcąc skompensować błędy pomiarowe.
Niech \(\displaystyle{ \chi }\) będzie zbiorem obserwacji , \(\displaystyle{ a(X), b(X) }\) funkcjami rzeczywistymi określonymi na zbiorze obserwacji \(\displaystyle{ \chi }\) takimi, że \(\displaystyle{ a(X)\leq b(X). }\)
Definicja 2 Przedziałem ufności dla parametru \(\displaystyle{ \theta }\) na poziomie ufności \(\displaystyle{ \gamma }\) nazywamy przedział \(\displaystyle{
[a(X), \ \ b(X)] }\) spełniający warunek:
\(\displaystyle{ P(\theta_{0}\in [a(X), b(X)] |\theta = \theta_{0}) \geq \gamma. }\)
Wielkość \(\displaystyle{ d(X) = \frac{b(X)-a(X)}{2} }\) nazywamy dokładnością przedziału ufności, \(\displaystyle{ m(X) = \frac{b(X)+a(X)}{2} }\) jego środkiem.
Często przedział ufności zapisuje się w postaci \(\displaystyle{ m(X)\pm d(X).}\)
Przykład 4
W gazecie Wyborczej pojawiły wyniki sondażu na temat '' Czy urlop macierzyński powinien zostać wydłużony. Zapytano 1000 Polaków powyżej 15 lat. 73 % respondentów odpowiedziało TAK. 11\% NIE i16% nie miało zdania w tej sprawie.
W komentarzu gazety napisano, że \(\displaystyle{ '' \frac{3}{4} }\) Polaków jest za".
Czy Gazeta miała prawo tak napisać?
Wektor obserwacji \(\displaystyle{ X }\) ma latex] 1000 [/latex] składowych \(\displaystyle{ x_{1},...,x_{1000} }\) w ktorym każda odpowiada wypowiedzi jednego z respondetów.
Przyporządkujmy odpowiedzi TAK liczbę \(\displaystyle{ 1}\) pozostałym odpowiedzią liczbę \(\displaystyle{ 0.}\)
Odpowiedzi \(\displaystyle{ x_{1}, ..., x_{1000} }\) są próbą prostą o rozkładzie \(\displaystyle{ P(\{X =1\})= \theta. }\)
W Gazecie napisano, że \(\displaystyle{ \theta = 0,75. }\)
Wyniki sondażu oznaczają, że
\(\displaystyle{ \overline{X} = \frac{1}{1000}\left(x_{1}+ ...+x_{1000}\right )= 0,73.}\)
Skorzystamy z Centralnego Twierdzenia Granicznego dla przypadku \(\displaystyle{ \frac{\overline{X} -E(\overline{X})}{Var(\overline{X})} \simeq Z}\) (asymptotyczną równość według prawdopodobiestwa).
\(\displaystyle{ Z }\) ma standaryzowany rozkład normalny (liczba 1000 jest dostatecznie duża, aby można było przyjąć przybliżenie rozkładem normalnym)
Stąd
\(\displaystyle{ \theta(1-\theta) \leq \frac{1}{4} }\) dla \(\displaystyle{ 0\leq \theta \leq 1.}\)
\(\displaystyle{ 0,95\leq P\left(-1,96 \leq \frac{\overline{X} - E(\overline{X})}{Var(\overline{X})} \leq 1,96\right) = P \left( -1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{\theta (1-\theta)}{1000}}} \leq 1,96 \right) \leq P\left(-1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{1}{4000}}}\leq 1,96\right) = }\)
\(\displaystyle{ = P\left( \overline{X} -\frac{1,96}{\sqrt{4000}} \leq \theta \overline{X} + \frac{1,96}{\sqrt{4000}} \right) = P(0,73-0,031\leq \theta \leq 0,73+0,031).}\)
Przedział ufności dla prawdopodobieństwa odpowiedzi TAK ma postać \(\displaystyle{ [0,699, \ \ 0,761]. }\) zawiera więc wielkość \(\displaystyle{ 0,75 }\) podaną przez Gazetę.
W powyższym przykładzie wyznaczyliśmy dokładność sondażu równą \(\displaystyle{ 0,031 = 3,1\% }\) dla nieznanej wartości parametru \(\displaystyle{ \theta.}\)
Ogólne standardy badania opinii publicznej zakładają, że należy dobrać tak dużą próbę , aby na poziomie \(\displaystyle{ 0,95 }\) dokładność przedziału ufności nie przkraczała \(\displaystyle{ 3\%. }\)
Przedziały ufności buduje się nie tylko dla wartości średnich, ale także dla wariancji, odchylenia standardowego frakcji (proporcji).
Weryfikacja hipotez
Weryfikacja hipotez statystycznych polega na:
- sformułowaniu hipotez: hipotezy zerowej \(\displaystyle{ H_{0}: \theta = \theta_{0} }\) i alternatywnej \(\displaystyle{ H_{1}: \theta \neq \theta_{0} }\) dotyczących wartości parametru \(\displaystyle{ \theta,}\)
-wyborze statystyki testowej \(\displaystyle{ Z }\) o rozkładzie zależnym od parametru \(\displaystyle{ \theta, }\) której rozkład jest znany dla każdego \(\displaystyle{ \theta }\)
- wyborze poziomu istotności testu \(\displaystyle{ \alpha }\) najczęściej \(\displaystyle{ \alpha = 0.01, \ \ \alpha = 0,05.}\)
- wyznaczeniu zbioru krytycznego \(\displaystyle{ \mathcal{K} }\) takiego , że prawdopodobieństwo iż statystyka przyjmie wartość ze zbioru krytycznego , przy założeniu, że prawdziwa jest hipoteza zerowa równe jest \(\displaystyle{ \alpha.}\)
\(\displaystyle{ P(Z) \in \mathcal{K} | \theta = \theta{0}) = \alpha.}\)
- obliczeniu wartości \(\displaystyle{ z_{n} }\) statystyki dla pobranej próby,
- podjęciu decyzji :
- odrzuceniu \(\displaystyle{ H_{0},}\) jeśli \(\displaystyle{ z_{n} \in \mathcal{K},}\) - przyjęciu \(\displaystyle{ H_{1}}\)
- przyjęciu \(\displaystyle{ H_{0}, }\) jeśli \(\displaystyle{ z_{n}\notin \mathcal{K} }\)- odrzuceniu \(\displaystyle{ H_{1}.}\)
Przykład 5
Niech \(\displaystyle{ X^{T} = \{ 5.1, 5.5, 4.9, 5,3\} \ \ kg }\) będzie próbą prostą wagi pięciu wylosowanych szczeniąt pewnej rasy o rozkładzie normalnym \(\displaystyle{ \mathcal{N}(m, 1 \ \ kg) }\)
Na poziomie istotności \(\displaystyle{ \alpha = 0,05 }\) testujemy hipotezę
\(\displaystyle{ H_{0}: \ \ m_{0} = 5 \ \ kg }\)
przeciwko hipotezie alternatywnej
\(\displaystyle{ H_{1}: \ \ m_{0}= 6 \ \ kg.}\)
Statystyka testowa:
\(\displaystyle{ Z = \frac{ \overline{X} - m_{0}}{\frac{1}{\sqrt{n}}}. }\)
Wartość statystyki testowej dla danych z próby:
\(\displaystyle{ z_{4} = \frac{5,2 -5}{\frac{1}{2}} = 0,4.}\)
Zbiór krytyczny testu \(\displaystyle{ 1 - \phi(k) = 0,05 \rightarrow k =1,65. }\)
Decyzja:
\(\displaystyle{ z_{4} = 0,4 \notin \mathcal{K} = [1,65, \ \ +\infty) }\)
Nie ma powodu aby odrzucić hipotezę zerową, że średna wartość wagi szczeniąt pewnej rasy wynosi \(\displaystyle{ m =\ \ 5kg.}\)
Dwa przedstawione pokrótce działy: teoria estymacji i teoria weryfikacji hipotez statystycznych składają na klasyczną statystykę matematyczną.
Literatura :
Józef Penc. Encyklopedia Zarządzania PWN Warszawa 1995.
Ryszard Zieliński. Siedem wykładów wprowadzających do statystyki matematycznej. PWN Warszawa 2004.
Mirosław Krzysko. STATYSTYKA MATEMATYCZNA. Wydawnictwo UAM. Poznań 1996.