Centralne twierdzenie graniczne od jakiego n - kod

Mathematica, Matlab, Statistica, LaTeX i wszelkiego rodzaju oprogramowanie przydatne matematykowi w pracy. Miejsca w sieci poświęcone zagadnieniu.
Nietoperz
Użytkownik
Użytkownik
Posty: 23
Rejestracja: 27 paź 2019, o 23:08
Płeć: Mężczyzna
wiek: 27
Podziękował: 5 razy

Centralne twierdzenie graniczne od jakiego n - kod

Post autor: Nietoperz » 27 paź 2019, o 23:12

Cześć mam zadanie które polega na tym że mam napisać program który pokaże dla kilku rozkładów od jakiej ilości próbek działa centralne twierdzenie graniczne. Jedyne co znalazłem to póki co to: https://youtu.be/66Uh6tw9IAE ale tam jest tylko rozkład jednostajny i nie wiem jak to pokazać dla innych rozkładów (i jak uzasadnić od jakiego n). Ma ktoś pomysł?
Rekrutacja Instytut Matematyczny, Uniwersytet Wrocławski (gif)

janusz47
Użytkownik
Użytkownik
Posty: 5515
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 9 razy
Pomógł: 1210 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: janusz47 » 28 paź 2019, o 16:08

Istotą Centralnych Twierdzeń Granicznych (CTG) jest to, że dotyczą one własności ciągów sum zmiennych niezależnych losowych, dla których graniczną dystrybuantą jest dystrybuanta rozkładu normalnego.

Wśród centralnych twierdzeń granicznych , które należy uwzględnić w Pańskim programie, to Centralne Twierdzenie Graniczne Lindenberga-Levy-ego , dotyczące ciągu niezależnych zmiennych losowych o dowolnym, lecz jednakowym rozkładzie ze skończoną wartością oczekiwaną i wariancją oraz jego uogólnienie Twierdzenie Integralne de Moivre'a-Laplace'a dla prób Bernoulliego, rozkładu zero-jedynkowego.

Twierdzenia te znalazły zastosowanie w estymacji (szacowaniu) parametru populacji na podstawie próby. Precyzja tego oszacowania jest tym wyższa im mniejszy jest maksymalny dopuszczalny błąd bezwzględny.

Przypuśćmy, że dopuszczalny błąd bezwzględny parametru \(\displaystyle{ \theta }\) wynosi \(\displaystyle{ d. }\)

Ponieważ estymator \(\displaystyle{ T_{n} }\) jest zmienną losową należy określić jak duże prawdopodobieństwo \(\displaystyle{ 1- \alpha }\) leży w granicach błędu \(\displaystyle{ \pm d }\) uznamy za wystarczające, aby ryzyko popełnienia błędu większego niż \(\displaystyle{ d }\) było dostatecznie małe.

W praktyce przyjmuje się, że prawdopodobieństwo \(\displaystyle{ 1 - \alpha = 0,95 }\) lub \(\displaystyle{ 0,99 }\) spełnia te wymagania.

Próba powinna być tak duża, aby spełniona była nierówność:

\(\displaystyle{ P(|T_{n} -\theta| \leq d ) \geq 1 - \alpha \ \ (1)}\)

Maksymalny dopuszczalny błąd oszacowania utożsamiamy z \(\displaystyle{ l - }\) krotnością odchylenia standardowego standardowego estymatora

\(\displaystyle{ d = l \cdot D(t_{n}) \ \ (2) }\)

ta znajomość rozkładu estymatora pozwoli na znalezienie takiej wielkości \(\displaystyle{ l, }\) która odpowiada założonemu prawdopodobieństwu \(\displaystyle{ 1 -\alpha }\) błedu w granicach \(\displaystyle{ \pm d.}\)

Ostateczny wzór na liczebność próby uzyskamy, rozwiązując równanie \(\displaystyle{ (2) }\) ze względu \(\displaystyle{ n. }\)

Liczebność próby dla oszacowania średniej, gdy próba pochodzi z rozkładu asymptotycznie normalnego, uzyskamy, zakładając, że błąd bezwzględny \(\displaystyle{ d }\) jest równy \(\displaystyle{ z_{\alpha} }\) odchylenia standardowego średniej w próbie.

Wtedy

\(\displaystyle{ d = \frac{\sigma}{\sqrt{n}} \ \ (3) }\)

Kwantyl \(\displaystyle{ z_{\alpha} }\) wprowadzamy do programu z tablic dystrybuanty standaryzowanego rozkładu normalnego lub obliczamy z całki Laplace'a dla przyjętego prawdopodobieństwa \(\displaystyle{ 1 - \alpha. }\)

Rozwiązując równanie \(\displaystyle{ (3) }\) ze względu na \(\displaystyle{ n, }\) otrzymujemy wzór na liczebność próby

\(\displaystyle{ n = \frac{z^2_{\alpha} \sigma^2}{d^2} \ \ (4) }\)

Aby otrzymać niezbędną ilość próby \(\displaystyle{ (4) }\) trzeba znać wariancję \(\displaystyle{ \sigma^2 }\) w populacji. a tej zazwyczaj nie znamy.

Wariancję cechy w populacji szacujemy na podstawie tzw. próby wstępnej.

Wykorzystując fakt, że wielkość \(\displaystyle{ \hat{S}^2 }\) jest nieobciążonym estymatorem wariancji \(\displaystyle{ \sigma^2 }\) w populacji oraz przyjmując w praktyce, że próba wstępna powinna być tak duża aby błąd standardowy wariancji nie przekraczał \(\displaystyle{ 0,2\sigma^2, }\) czyli względny błąd oszacowania ( współczynnik zmienności estymatora) nie przekraczał \(\displaystyle{ 0,2 }\) to jest \(\displaystyle{ 20\% }\) szacowanej wielkości, stąd otrzymujemy

\(\displaystyle{ \frac{1}{n'} (\beta -1) \leq 0,2^2 }\)

\(\displaystyle{ n' \geq 25 (\beta -1).}\)

W przypadku populacji normalnej \(\displaystyle{ \beta = 3.}\) - liczebność próby wstępnej powinna wynieść \(\displaystyle{ n'\approx 50 }\)

Z równania \(\displaystyle{ (4) }\) na podstawie oszacowania próby wstępnej \(\displaystyle{ n' }\) znajdujemy wariancję \(\displaystyle{ \sigma'^2.}\)

Podobne rozumowanie przeprowadzamy, gdy wariancję szacujemy na podstawie małej próby wstępnej \(\displaystyle{ n' \leq 30 }\) wtedy liczebność próby zasadniczej obliczamy ze wzoru

\(\displaystyle{ n = \frac{t^2_{\alpha} s'^2}{d^2} }\)
gdzie
\(\displaystyle{ t_{\alpha} }\) jest kwantylem rozkładu Studenta dla poziomu założonego istotności \(\displaystyle{ \alpha }\) i danej liczby \(\displaystyle{ n'-1 }\) stopni swobody.

Podobną analizę oszacowań liczebności próby na podstawie CTG , przeprowadzamy dla rozkładów: dwumianowego Bernoulliego, Poissona, wykładniczego, jednostajnego i innych.

Z analizy tej wynika, że Pański program do wyznaczania liczebności próby \(\displaystyle{ n }\) dla przyjętych rozkładów, powinien zawierać lub obliczać wartości kwantyli \(\displaystyle{ z_{\alpha}, }\) dla danego poziomu ufności \(\displaystyle{ 1 -\alpha }\) i przyjętych błędów oszacowań \(\displaystyle{ d }\) oraz obliczać wariancję z próby dla tych rozkładów.

Nietoperz
Użytkownik
Użytkownik
Posty: 23
Rejestracja: 27 paź 2019, o 23:08
Płeć: Mężczyzna
wiek: 27
Podziękował: 5 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: Nietoperz » 29 paź 2019, o 08:17

Wielkie dzięki za pomoc, wychodzi na to że to nie na moją głowę :( Chyba że mógłby ktoś to pokazać na wybranym rozkładzie a ja spróbowałbym dla reszty?

janusz47
Użytkownik
Użytkownik
Posty: 5515
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 9 razy
Pomógł: 1210 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: janusz47 » 29 paź 2019, o 12:44

Dla rozkładu normalnego podałem, gotowe wzory na liczebność próbek małych i dużych.

Dla rozkładu Bernoulliego można wyprowadzić wzór

\(\displaystyle{ n = \frac{z_{\alpha}\cdot p\cdot (1-p)}{d^2}. }\)

Za oszacowanie parametru rozkładu Poissona przyjmujemy średnią w rozkładzie empirycznym ( średnią z próbek).

\(\displaystyle{ \hat{\lambda} = \overline{X} }\)

Jest to estymator nieobciążony i efektywny o wariancji

\(\displaystyle{ D^2(\hat{\lambda}) = \frac{\lambda}{n}. }\)

Stąd

\(\displaystyle{ n = \frac{\lambda}{D^2(\hat{\lambda})}. }\)

Obliczenie \(\displaystyle{ n }\) z tych wzorów nie powinno być dla Pana wielką sztuką programistyczną.

Nietoperz
Użytkownik
Użytkownik
Posty: 23
Rejestracja: 27 paź 2019, o 23:08
Płeć: Mężczyzna
wiek: 27
Podziękował: 5 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: Nietoperz » 29 paź 2019, o 22:20

Dziękuję, spróbuję to przeanalizować na spokojnie i w razie problemów będę pisał.

Nietoperz
Użytkownik
Użytkownik
Posty: 23
Rejestracja: 27 paź 2019, o 23:08
Płeć: Mężczyzna
wiek: 27
Podziękował: 5 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: Nietoperz » 2 lis 2019, o 10:33

janusz47 pisze:
29 paź 2019, o 12:44
Dla rozkładu normalnego podałem, gotowe wzory na liczebność próbek małych i dużych.

Dla rozkładu Bernoulliego można wyprowadzić wzór

\(\displaystyle{ n = \frac{z_{\alpha}\cdot p\cdot (1-p)}{d^2}. }\)

Za oszacowanie parametru rozkładu Poissona przyjmujemy średnią w rozkładzie empirycznym ( średnią z próbek).

\(\displaystyle{ \hat{\lambda} = \overline{X} }\)

Jest to estymator nieobciążony i efektywny o wariancji

\(\displaystyle{ D^2(\hat{\lambda}) = \frac{\lambda}{n}. }\)

Stąd

\(\displaystyle{ n = \frac{\lambda}{D^2(\hat{\lambda})}. }\)

Obliczenie \(\displaystyle{ n }\) z tych wzorów nie powinno być dla Pana wielką sztuką programistyczną.

Ja generalnie nie miałem jeszcze statystyki więc wielu oznaczeń i przejść nie rozumiem. Podszkoliłem się trochę z tej strony
http://matma-po-ludzku.pl/statystyka/wn ... lna/wstep/

Rozumiem że \(\displaystyle{ \displaystyle{ 1- \alpha }}\) oraz \(\displaystyle{ d}\) sam wybieram ale nie wiem co u nas oznacza \(\displaystyle{ T_n}\) oraz \(\displaystyle{ \theta}\)? Gdzie w zasadzie korzystamy z tw Lindeberga Leviego? Mógłbyś na konkretnych liczbach wyliczyć \(\displaystyle{ n}\) dla tych trzech rozkładów? Byłoby mi łatwiej to zrozumieć

janusz47
Użytkownik
Użytkownik
Posty: 5515
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 9 razy
Pomógł: 1210 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: janusz47 » 2 lis 2019, o 10:44

Wzory na obliczenie liczebność próby \(\displaystyle{ n }\) podałem. Na konkretnych przykładach należy je w programie użyć.

\(\displaystyle{ \theta }\) - to ogólne oznaczenie parametru,

\(\displaystyle{ T_{n} }\) - to oznaczenie estymatora.

Znajdowanie liczebności prób jest przedmiotem Statystyki. Jak można pisać program ze Statystyki nie znając Statystyki?

Nietoperz
Użytkownik
Użytkownik
Posty: 23
Rejestracja: 27 paź 2019, o 23:08
Płeć: Mężczyzna
wiek: 27
Podziękował: 5 razy

Re: Centralne twierdzenie graniczne od jakiego n - kod

Post autor: Nietoperz » 2 lis 2019, o 11:34

Pojęcia estymatorów i szacowania miałem dość po łebkach wspomniane na rachunku prawdopodobieństwa. Mimo wszystko chciałbym to zadanie dokończyć chociażby dla tych trzech rozkładów. Dla rozkładu Bernoulliego widzę wzór jest prosty, wystarczy wybrać jakieś \(\displaystyle{ p}\). Ale jakie \(\displaystyle{ d}\) się w praktyce przyjmuje? We wzorach dla rozkładu normalnego jak znaleźć \(\displaystyle{ s'^2}\) znając jedynie liczebność próby wstępnej? To samo w przypadku Poissona, co mamy podane a co mamy wyliczyć? Polecacie jakaś stronę z podobnym zadaniem żebym mógł zrozumieć podstawowe kwestie potrzebne do rozwiązania tego zadania?

Dodano po 6 minutach 36 sekundach:
Przy poissonie mam sobie wymyśleć wartości? Dalej niestety nie rozumiem gdzie w tym rozwiązaniu uwzględniamy CTG

ODPOWIEDZ