Wnioskowania statystyczne

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Awatar użytkownika
Niepokonana
Użytkownik
Użytkownik
Posty: 1548
Rejestracja: 4 sie 2019, o 11:12
Płeć: Kobieta
Lokalizacja: Polska
Podziękował: 337 razy
Pomógł: 20 razy

Wnioskowania statystyczne

Post autor: Niepokonana »

Proszę o pomoc, jak ładnie, poprawną polszczyzną napisać na czym polega wnioskowanie statystyczne?
No bo ja mniej więcej rozumiem, o co chodzi, ale nie wiem, jak to napisać ładnie, żeby mój profesor był zadowolony.

Mamy nieznany rozkład o gęstości \(\displaystyle{ f_{\theta}(x)}\) i wektor losowy \(\displaystyle{ X=(X_{1},..,X_{n})}\) (próba) z tego rozkładu. Gęstość ta zależy od parametru \(\displaystyle{ \theta}\) z przestrzeni parametrów \(\displaystyle{ \Theta}\). Próbujemy stwierdzić, jaki to jest rozkład poprzez estymowanie parametru \(\displaystyle{ \theta}\). \(\displaystyle{ X}\) jest próbą z owego rozkładu, jeżeli jego \(\displaystyle{ n}\) składowych jest parami niezależnych i z rozkładu o tej szukanej gęstości. \(\displaystyle{ X'}\) jest zbiorem wartości \(\displaystyle{ X}\)
Przestrzeń statystyczna to \(\displaystyle{ (X', B(X'), P(\theta \in \Theta))}\)
Zakładamy, że szukana gęstość jest różna dla różnych parametrów \(\displaystyle{ \theta}\).
Wnioskowanie statystyczne polega na identyfikacji \(\displaystyle{ \theta}\) na podstawie realizacji \(\displaystyle{ X}\) czyli próbki, czyli tego co się wylosowało. Istnieją 4 podstawowe zadania... i to jest już potem kolejne zagadnienie o estymacji punktowej.

Co jeszcze dopisać??
janusz47
Użytkownik
Użytkownik
Posty: 7919
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Re: Wnioskowania statystyczne

Post autor: janusz47 »

Wnioskowanie statystyczne

Wnioskowanie statystyczne jest działem statystyki. Obejmuje procedury badania , części populacji . Wyniki tych badań uogólnia się na całą zbiorowość.

Tak postępuje się , bo praktycznie przebadanie wszystkich elementów populacji nie zawsze jest możliwe na przykład, wtedy, gdy badanie jest niszczące, zbyt kosztowne, musi być wykonane w krótkim czasie i populacja jest nieskończona.

Podstawą wnioskowania statystycznego jest zbiór obserwacji lub zbiór wyników eksperymentu wykonywanego w celu zbadania pewnego obiektu lub zjawiska. Obserwacje, czy wyniki eksperymentu traktowane są jako wartości zmiennej losowej \(\displaystyle{ X }\) lub wektora losowego.

Taką zmienną nazywamy obserwowalną zmienną losową.

Niech \(\displaystyle{ \chi }\) oznacza zbiór wartości obserwowalnej zmiennej losowej \(\displaystyle{ X, }\) (przestrzeń zdarzeń elementarnych), a \(\displaystyle{ \ \ \mathcal{A} }\) niech będzie wyróżnionym \(\displaystyle{ \sigma }\) - ciałem podzbiorów (zdarzeń) zbioru \(\displaystyle{ \chi.}\)

Problemy statystyczne charakteryzują się tym, że rozkład prawdopodobieństwa zmiennej losowej \(\displaystyle{ X }\) nie jest zwykle znany.

Posiadane informacje pozwalają jedynie wyróżnić pewną rodzinę rozkładów \(\displaystyle{ \mathcal{P} = \{ P_{\theta}: \ \ \theta\in \Theta \} }\) określoną w przestrzeni \(\displaystyle{ \{ \chi, \mathcal{A} \} }\) do której ten rozkład należy.

Rozkłady z rodziny \(\displaystyle{ \mathcal{P} }\) indeksowane są parametrem \(\displaystyle{ \theta }\) należącym do pewnego zbioru \(\displaystyle{ \Theta. }\)

Przestrzeń parametrów \(\displaystyle{ \Theta }\) może być przestrzenią skończenie wymiarową lub nieskończenie wymiarową.

Przykładami rodziny rozkładów prawdopodobieństwa indeksowanych parametrem z przestrzeni skończenie wymiarowej są:

- rodzina rozkładów normalnych \(\displaystyle{ \{ \mathcal{N}(m, \sigma^2): m\in \RR, \ \ \sigma>0 \},}\)

Zbiór \(\displaystyle{ \theta = \{ (m, \sigma^2), \Theta = R\times (R^{+}\setminus\{0\} \} }\).

- rodzina rozkładów hipergeometryczmnych \(\displaystyle{ \{\mathcal{H}(x,N,M,n), x = 0,1,..., \min\{n, M\}\}.}\)

Zbiór \(\displaystyle{ \theta = \{ (N,M, n), \Theta = \NN\times \NN \times \NN\} }\).

Przykładem rodziny indeksowanych parametrem z przestrzeni nieskończenie wymiarowej jest rodzina wszystkich rozkładów określonych na \(\displaystyle{ \RR }\) mających ciągłą dystrybuantę. Zbiór \(\displaystyle{ \Theta }\) utożsamiamy z rodziną \(\displaystyle{ \mathcal{P}.}\)

Naszym celem jest wyróżnienie najbardziej wiarygodnych wartości parametru \(\displaystyle{ \theta, }\) jest to problem estymacji punktowej lub wyznaczenie takiego podzbioru \(\displaystyle{ \Theta, }\) w którym zawiera się parametr \(\displaystyle{ \theta }\) są to problemy estymacji za pomocą przedziałów ufności oraz problemy weryfikacji hipotez.

Trójkę \(\displaystyle{ (\chi, \mathcal{A}, \mathcal{P} ) }\) nazywamy przestrzenią statystyczną indukowaną przez zmienną losową \(\displaystyle{ X }\) lub modelem statystycznym.

W przykładzie pierwszym modelem statystycznym jest \(\displaystyle{ \{ \RR,\ \ f_{m,\sigma}= \frac{1}{\sigma\sqrt{2\pi}}\exp\left[-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2\right], m\in \RR, \sigma>0 \},}\)

W przykładzie drugim \(\displaystyle{ \left \{\RR, \ \ p(x,N, M, n) = \frac{{M\choose x}{N-M\choose n-x}}{{N\choose n}}, N, M,n, x \in \NN \right\}.}\)

Chcemy racjonalnie oszacować nieznany parametr \(\displaystyle{ \theta }\), będący wektorem o współrzędnych liczbowych.

Oszacowanie zależy od obserwacji i wybranego modelu statystycznego.

Oznaczamy je \(\displaystyle{ \hat{\theta}(X) }\) lub \(\displaystyle{ \hat{\theta}}\) i nazywamy estymatorem parametru \(\displaystyle{ \theta.}\)

Jeżeli obserwacje, badania są realizacjami zmiennych losowych, to i estymator jest realizacją zmiennej losowej.

Chcemy, aby to oszacowanie było dobre.

Termin "dobre" jest nieprecyzyjny dlatego formułuje się kryteria jakości estymatora.

Metoda podstawiania częstości

Nie umiemy wyznaczyć prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) natomiast dysponujemy informacją jak często pojawia się to zdarzenie w próbie.

Częstość zdarzenia wynosi \(\displaystyle{ f(A, X) = \frac{ | \{i: x_{i} \in A\}|}{n} .}\)

Prawdopodobieństwo zdarzenia \(\displaystyle{ A }\) można wyrazić przez funkcję \(\displaystyle{ p(\theta, X) }\).

Gdy cecha obserwowana jest dyskretna, to \(\displaystyle{ p(\theta, A) = \sum_{x\in A} p(\theta, x),}\) a gdy cecha jest ciągła to \(\displaystyle{ p(\theta, A) = \int_{A} p(\theta, x)dx. }\)

Zasadą tworzenia próby w statystyce jest jej reprezentatywność wobec populacji- próba jest utworzona na obraz i podobieństwo populacji.

Oznacza to, że dla każdego \(\displaystyle{ A }\) powinna zachodzić przybliżona równość \(\displaystyle{ p(\theta, A) \approx f(A, X).}\)

Metoda podstawiania częstości polega na rozwiązaniu równania:

\(\displaystyle{ p(\theta, A) = f(A, X) }\) z niewiadomą \(\displaystyle{ \theta.}\)

Gdy parametr \(\displaystyle{ \theta }\) jest wielowymiarowy wtedy wybieramy kilka różnych zdarzeń związanych z obserwowaną cechą.

Racjonalność takiego wyboru estymatora związana jest z Prawem Wielkich Liczb.

Wynika z niego następujący wniosek nazywany zgodnością według Fishera:

Gdy wielkość próbki zmierza do nieskończoności to częstości \(\displaystyle{ f(A, X) }\) zdarzenia \(\displaystyle{ A }\) zmierzają z prawdopodobieństwem 1 do prawdopodobieństwa \(\displaystyle{ p(\theta, A) }\) tego zdarzenia

\(\displaystyle{ P[\lim_{n\to \infty} f(A,X) = p(\theta, A)] = 1.}\)

Przykład 1 (szacowanie ryb w jeziorze).

Doświadczenie polega na tym, że \(\displaystyle{ 1000 }\) razy powtarzamy wyławianie ryb. Wektor danych ma \(\displaystyle{ 1000 }\) współrzędnych.

Cecha, którą mierzymy w i-tym powtórzeniu ma dwie wartości:
\(\displaystyle{ 1, }\) gdy za i-tym razem wyłowiono oznaczoną rybę.
\(\displaystyle{ 0, }\) gdy za i-tym razem wyłowiono rybę nieoznaczoną.

Zdarzenie \(\displaystyle{ A }\) polega na tym, że łowiąc jedną rybę, wyłowi się oznaczoną.

\(\displaystyle{ p(N,A) = \frac{{1200 \choose 1}{N-1\choose 999}}{{N\choose 1000}\cdot 1000} = \frac{1200}{N}.}\)

Niezależnie od momentu, w którym łowiono rybę.

Niech frakcja zdarzenia \(\displaystyle{ A }\) w \(\displaystyle{ 1000 }\) doświadczeń wynosi \(\displaystyle{ f(A,X) = \frac{|\{i: x_{i} =1\}|}{1000} = \frac{40}{1000}}\)

Z równania \(\displaystyle{ \frac{1200}{N} = \frac{40}{1000} }\) otrzymamy oszacowanie liczby ryb w jeziorze równe \(\displaystyle{ \hat{N} = \frac{1200\cdot 1000}{40} = 3000.}\)

Metoda momentów

Moment o numerze \(\displaystyle{ r }\) (r-ty moment) zmiennej losowej \(\displaystyle{ Z }\) jest to liczba \(\displaystyle{ \mu_{r} = E(Z^{r}), \ \ E(Z^{r})<\infty. }\)

Metoda momentów polega na rozwiązaniu układu równań:

\(\displaystyle{ \begin{cases} \mu_{r_{1}} = m_{r_{1}} \\ ..........\\ \mu_{r_{k}} = m_{r_{k}} \end{cases} }\)

Liczba wskaźników \(\displaystyle{ r_{i}, \ \ i=1, ... k }\) zależy od ilości parametrów, które mamy oszacować.

Przykład 2(ryby w jeziorze)

Niech

\(\displaystyle{ X_{i} = \begin{cases} 1, \ \ \text{gdy i-ta ryba złowiona ryba jest oznakowana} \\ 0, \ \ \text{gdy i-ta ryba złowiona ryba nie jest oznakowana} \end{cases} }\)

Zmienne losowe mają ten sam rozkład o wartości oczekiwanej \(\displaystyle{ E(X_{i}) = \frac{1200}{N}. }\)

Pierwszy moment z próby wynosi \(\displaystyle{ m_{1} = \frac{x_{1}+ ...+x_{1000}}{1000} = 0,04.}\)

Z równania momentów \(\displaystyle{ \frac{1200}{N} = 0,04, }\) a stąd \(\displaystyle{ \hat{N} = 3000.}\)

Metoda największej wiarygodności

W modelu statystycznym \(\displaystyle{ p(\theta, X) }\) określa z jakim prawdopodobieństwem w danym doświadczeniu można uzyskać wynik \(\displaystyle{ X.}\)

Jeśli ustalimy \(\displaystyle{ X }\) a zmieniać będziemy \(\displaystyle{ \theta,}\) to funkcja \(\displaystyle{ l_{X}(\theta) = p(\theta, X) }\) opisuje wiarygodność modelu \(\displaystyle{ \theta }\) względem wyniku \(\displaystyle{ X.}\)

Funkcja \(\displaystyle{ l_{X}(\theta) }\) nazywa się funkcją wiarygodnosci.

Definicja 1 Funkcja \hat{\theta}(X) jest estymatorem największej wiarygodności pparametru \(\displaystyle{ \theta, }\)

gdy

\(\displaystyle{ l_{X}(\hat{\theta}) \leq l_{X}(\theta) \longleftrightarrow p(\hat{\theta},X) \leq p(\theta, X).}\)

Dla prób prostych to znaczy wektorów danych będących realizacją ciągu niezależnych zmiennych losowych o tym samym rozkładzie - funkcję wiarygodności zapisujemy jako iloczyn

\(\displaystyle{ l_{X}(\theta) = \prod_{i=1}^{n} p(\theta,x_{i}) }\)

W praktyce statystycznej dosyć często zamiast szukać maksimum funkcji wiarygodności szuka się maksimum logarytmu tej funkcji.

Wtedy

\(\displaystyle{ \log(l_{X}(\theta)) = \sum_{i=1}^{n} log[p(\theta,x_{i})] }\)

i niewygodny iloczyn zamienia się na sumę.

Przykład 3(ryby w jeziorze)

Funkcja wiarygodności \(\displaystyle{ l_{x}(N) = \frac{{k\choose x}{N-k\choose n-x}}{{N\choose n}} }\)

gdzie

\(\displaystyle{ N }\) jest nieznaną liczbą ryb w jeziorze,

\(\displaystyle{ k }\) liczbą ryb oznakowanych,

\(\displaystyle{ n }\) liczbą ryb wyłwionych

\(\displaystyle{ x }\) liczbą ryb wyłowionych i oznakowanych.

Iloraz wiarygodności

\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} = \frac{(N+1-k)(N+1-n)}{N+1-k-n+x)(N+1)} }\)

\(\displaystyle{ \frac{l_{x}(N+1)}{l_{x}(N)} \leq 1 \longleftrightarrow N > \frac{kx}{n} -1 }\)

Stąd wynika rozwiązanie w postaci estymatora największej wiarygodności

\(\displaystyle{ \hat{N}(x) = \begin{cases} \left[ \frac{kx}{n} \right ] \ \ \text{gdy} \frac{kx}{n} \notin \ZZ \\ \frac{kx}{n} \ \ \text{lub} \ \ \frac{kx}{n}-1 \ \ \text{gdy} \ \ \frac{kx}{n} \notin \ZZ \end{cases} }\)

W naszym konkretym przypadku \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} = 3000 }\) lub \(\displaystyle{ \hat{N} = \frac{1000\cdot 1200}{40} -1 = 3000 -1= 2999.}\)

Estymacja przedziałowa

Bardziej realistyczne jest oszacowanie przedziałowe. Takimi oszacowaniami posługują się fizycy, inżynierowie, biologowie, socjologowie ..., chcąc skompensować błędy pomiarowe.

Niech \(\displaystyle{ \chi }\) będzie zbiorem obserwacji , \(\displaystyle{ a(X), b(X) }\) funkcjami rzeczywistymi określonymi na zbiorze obserwacji \(\displaystyle{ \chi }\) takimi, że \(\displaystyle{ a(X)\leq b(X). }\)

Definicja 2 Przedziałem ufności dla parametru \(\displaystyle{ \theta }\) na poziomie ufności \(\displaystyle{ \gamma }\) nazywamy przedział \(\displaystyle{

[a(X), \ \ b(X)] }\)
spełniający warunek:

\(\displaystyle{ P(\theta_{0}\in [a(X), b(X)] |\theta = \theta_{0}) \geq \gamma. }\)

Wielkość \(\displaystyle{ d(X) = \frac{b(X)-a(X)}{2} }\) nazywamy dokładnością przedziału ufności, \(\displaystyle{ m(X) = \frac{b(X)+a(X)}{2} }\) jego środkiem.

Często przedział ufności zapisuje się w postaci \(\displaystyle{ m(X)\pm d(X).}\)

Przykład 4

W gazecie Wyborczej pojawiły wyniki sondażu na temat '' Czy urlop macierzyński powinien zostać wydłużony. Zapytano 1000 Polaków powyżej 15 lat. 73 % respondentów odpowiedziało TAK. 11\% NIE i16% nie miało zdania w tej sprawie.

W komentarzu gazety napisano, że \(\displaystyle{ '' \frac{3}{4} }\) Polaków jest za".

Czy Gazeta miała prawo tak napisać?

Wektor obserwacji \(\displaystyle{ X }\) ma latex] 1000 [/latex] składowych \(\displaystyle{ x_{1},...,x_{1000} }\) w ktorym każda odpowiada wypowiedzi jednego z respondetów.

Przyporządkujmy odpowiedzi TAK liczbę \(\displaystyle{ 1}\) pozostałym odpowiedzią liczbę \(\displaystyle{ 0.}\)

Odpowiedzi \(\displaystyle{ x_{1}, ..., x_{1000} }\) są próbą prostą o rozkładzie \(\displaystyle{ P(\{X =1\})= \theta. }\)

W Gazecie napisano, że \(\displaystyle{ \theta = 0,75. }\)

Wyniki sondażu oznaczają, że

\(\displaystyle{ \overline{X} = \frac{1}{1000}\left(x_{1}+ ...+x_{1000}\right )= 0,73.}\)

Skorzystamy z Centralnego Twierdzenia Granicznego dla przypadku \(\displaystyle{ \frac{\overline{X} -E(\overline{X})}{Var(\overline{X})} \simeq Z}\) (asymptotyczną równość według prawdopodobiestwa).

\(\displaystyle{ Z }\) ma standaryzowany rozkład normalny (liczba 1000 jest dostatecznie duża, aby można było przyjąć przybliżenie rozkładem normalnym)

Stąd

\(\displaystyle{ \theta(1-\theta) \leq \frac{1}{4} }\) dla \(\displaystyle{ 0\leq \theta \leq 1.}\)

\(\displaystyle{ 0,95\leq P\left(-1,96 \leq \frac{\overline{X} - E(\overline{X})}{Var(\overline{X})} \leq 1,96\right) = P \left( -1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{\theta (1-\theta)}{1000}}} \leq 1,96 \right) \leq P\left(-1,96 \leq \frac{\overline{X}-\theta}{\sqrt{\frac{1}{4000}}}\leq 1,96\right) = }\)

\(\displaystyle{ = P\left( \overline{X} -\frac{1,96}{\sqrt{4000}} \leq \theta \overline{X} + \frac{1,96}{\sqrt{4000}} \right) = P(0,73-0,031\leq \theta \leq 0,73+0,031).}\)

Przedział ufności dla prawdopodobieństwa odpowiedzi TAK ma postać \(\displaystyle{ [0,699, \ \ 0,761]. }\) zawiera więc wielkość \(\displaystyle{ 0,75 }\) podaną przez Gazetę.

W powyższym przykładzie wyznaczyliśmy dokładność sondażu równą \(\displaystyle{ 0,031 = 3,1\% }\) dla nieznanej wartości parametru \(\displaystyle{ \theta.}\)

Ogólne standardy badania opinii publicznej zakładają, że należy dobrać tak dużą próbę , aby na poziomie \(\displaystyle{ 0,95 }\) dokładność przedziału ufności nie przkraczała \(\displaystyle{ 3\%. }\)

Przedziały ufności buduje się nie tylko dla wartości średnich, ale także dla wariancji, odchylenia standardowego frakcji (proporcji).

Weryfikacja hipotez

Weryfikacja hipotez statystycznych polega na:

- sformułowaniu hipotez: hipotezy zerowej \(\displaystyle{ H_{0}: \theta = \theta_{0} }\) i alternatywnej \(\displaystyle{ H_{1}: \theta \neq \theta_{0} }\) dotyczących wartości parametru \(\displaystyle{ \theta,}\)

-wyborze statystyki testowej \(\displaystyle{ Z }\) o rozkładzie zależnym od parametru \(\displaystyle{ \theta, }\) której rozkład jest znany dla każdego \(\displaystyle{ \theta }\)

- wyborze poziomu istotności testu \(\displaystyle{ \alpha }\) najczęściej \(\displaystyle{ \alpha = 0.01, \ \ \alpha = 0,05.}\)

- wyznaczeniu zbioru krytycznego \(\displaystyle{ \mathcal{K} }\) takiego , że prawdopodobieństwo iż statystyka przyjmie wartość ze zbioru krytycznego , przy założeniu, że prawdziwa jest hipoteza zerowa równe jest \(\displaystyle{ \alpha.}\)

\(\displaystyle{ P(Z) \in \mathcal{K} | \theta = \theta{0}) = \alpha.}\)

- obliczeniu wartości \(\displaystyle{ z_{n} }\) statystyki dla pobranej próby,

- podjęciu decyzji :

- odrzuceniu \(\displaystyle{ H_{0},}\) jeśli \(\displaystyle{ z_{n} \in \mathcal{K},}\) - przyjęciu \(\displaystyle{ H_{1}}\)

- przyjęciu \(\displaystyle{ H_{0}, }\) jeśli \(\displaystyle{ z_{n}\notin \mathcal{K} }\)- odrzuceniu \(\displaystyle{ H_{1}.}\)

Przykład 5

Niech \(\displaystyle{ X^{T} = \{ 5.1, 5.5, 4.9, 5,3\} \ \ kg }\) będzie próbą prostą wagi pięciu wylosowanych szczeniąt pewnej rasy o rozkładzie normalnym \(\displaystyle{ \mathcal{N}(m, 1 \ \ kg) }\)

Na poziomie istotności \(\displaystyle{ \alpha = 0,05 }\) testujemy hipotezę

\(\displaystyle{ H_{0}: \ \ m_{0} = 5 \ \ kg }\)

przeciwko hipotezie alternatywnej

\(\displaystyle{ H_{1}: \ \ m_{0}= 6 \ \ kg.}\)

Statystyka testowa:

\(\displaystyle{ Z = \frac{ \overline{X} - m_{0}}{\frac{1}{\sqrt{n}}}. }\)

Wartość statystyki testowej dla danych z próby:

\(\displaystyle{ z_{4} = \frac{5,2 -5}{\frac{1}{2}} = 0,4.}\)

Zbiór krytyczny testu \(\displaystyle{ 1 - \phi(k) = 0,05 \rightarrow k =1,65. }\)

Decyzja:
\(\displaystyle{ z_{4} = 0,4 \notin \mathcal{K} = [1,65, \ \ +\infty) }\)

Nie ma powodu aby odrzucić hipotezę zerową, że średna wartość wagi szczeniąt pewnej rasy wynosi \(\displaystyle{ m =\ \ 5kg.}\)

Dwa przedstawione pokrótce działy: teoria estymacji i teoria weryfikacji hipotez statystycznych składają na klasyczną statystykę matematyczną.

Literatura :

Józef Penc. Encyklopedia Zarządzania PWN Warszawa 1995.

Ryszard Zieliński. Siedem wykładów wprowadzających do statystyki matematycznej. PWN Warszawa 2004.

Mirosław Krzysko. STATYSTYKA MATEMATYCZNA. Wydawnictwo UAM. Poznań 1996.
ODPOWIEDZ