Centralne tw graniczne i Berry-Essen

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
janusz47
Użytkownik
Użytkownik
Posty: 7917
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Centralne tw graniczne i Berry-Essen

Post autor: janusz47 »

Wzajemnie.
cichy767
Użytkownik
Użytkownik
Posty: 46
Rejestracja: 23 paź 2016, o 18:32
Płeć: Mężczyzna
Lokalizacja: Wrocław
Podziękował: 12 razy

Centralne tw graniczne i Berry-Essen

Post autor: cichy767 »

Dziękuje za pomoc ale z tego co wiem to miałem skorzystać z wzoru CTG Lindeberga-Lévy’ego:
\(\displaystyle{ \frac{ \sum_{i=1}^{n} (Xi-u)}{\sigma \sqrt{n} }}\)
\(\displaystyle{ EX=u}\)
\(\displaystyle{ D^2X=\sigma^2}\)

No właśnie pewnie słabe pytanie, ale jak policzyć tutaj \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ?
Wydaje mi się, że \(\displaystyle{ u=1/2}\) i \(\displaystyle{ \sigma^2=1/4}\) , ale nie jestem pewny.
Awatar użytkownika
Premislav
Użytkownik
Użytkownik
Posty: 15687
Rejestracja: 17 sie 2012, o 13:12
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 196 razy
Pomógł: 5221 razy

Centralne tw graniczne i Berry-Essen

Post autor: Premislav »

janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a. :!:
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).

Mała scenka na podstawie tego wątku:
– Uważam, że niepoprawnie obliczyłeś tę całkę.
– Co ty, podstawienia Eulera obrażasz, łajzo?! Euler wyczyniał cuda zanim twoi starzy pierwszy raz poszli do łóżka, chamie łysy. Jak ten śmieć śmie…

Ja nie wiem, może tak kiedyś gdzieniegdzie uczono czytania ze zrozumieniem, żeby ludzie łykali gospodarkę socjalistyczną i inne głupoty. W każdym razie to przykre, że ktoś kto skończył matematykę pokazuje taki poziom kultury dyskusji. Niestety ostatnimi czasy

Kod: Zaznacz cały

https://www.youtube.com/watch?v=KUuk4bzI1rQ
, taka jest moja opinia.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

cichy767, zgadza się, wg Twoich oznaczeń \(\displaystyle{ u=\frac 1 2, \ \sigma^2=\frac 1 4}\) , ale gwoli ścisłości, to nie jest odpowiedź na pytanie „jak policzyć \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ”.
Poza tym z uwagi na fakt, iż suma \(\displaystyle{ n}\) niezależnych zmiennych losowych \(\displaystyle{ X_1, \ldots X_n}\) o tym samym rozkładzie dwupunktowym (zero-jedynkowym, z \(\displaystyle{ \mathbf{P}(X_i=1)=p}\) ) ma rozkład dwumianowy z parametrami \(\displaystyle{ n, p}\) , tak naprawdę integralne tw. de Moivre'a-Laplace'a daje tu dokładnie to samo, co CTG Lindeberga-Lévy'ego (to pierwsze można traktować w zasadzie jak szczególny przypadek drugiego).
EDIT: Sorry, \(\displaystyle{ \sigma^2}\) , a nie \(\displaystyle{ \sigma}\) , wariancja dla pojedynczej zmiennej wynosi \(\displaystyle{ \frac 1 4}\) , a odchylenie \(\displaystyle{ \frac 1 2}\) , więc \(\displaystyle{ \sigma=\frac 1 2}\) .
a4karo
Użytkownik
Użytkownik
Posty: 22210
Rejestracja: 15 maja 2011, o 20:55
Płeć: Mężczyzna
Lokalizacja: Bydgoszcz
Podziękował: 38 razy
Pomógł: 3755 razy

Centralne tw graniczne i Berry-Essen

Post autor: a4karo »

Premislav pisze:janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a. :!:
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).
Prawda. Na początku była poprawna formułą z \(\displaystyle{ \approx}\), potem się falki wyprostowały. :oops:

Z drugiej strony w zdarzeniu \(\displaystyle{ X\geq 20000}\) jest \(\displaystyle{ 20001}\) zdarzeń sprzyjających, więc wzorek powinien być taki:
\(\displaystyle{ \Pr( X \geq 20000) = 1 - \Pr \left ( Z < \frac{{\red 20001} - 40000\cdot \frac{1}{2}}{\sqrt{40000\cdot \frac{1}{2}(1 -\frac{1}{2})}} \right)}\)
janusz47
Użytkownik
Użytkownik
Posty: 7917
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Centralne tw graniczne i Berry-Essen

Post autor: janusz47 »

Kol. Cichy 767

Twierdzenie Lindenberga-Levy dla zmiennych losowych \(\displaystyle{ X_{i}\ \ i = 1,2...40000}\) o rozkładzie Bernoulli przy Twoich oznaczeniach: \(\displaystyle{ E(X) = u = \frac{1}{2}=p}\) i \(\displaystyle{ D^2 (X) = \sigma^2 = p\cdot (1-p) = \frac{1}{2}\cdot \frac{1}{2}= \frac{1}{4}}\) , to postać twierdzenia de Moivre'a-Laplace'a.

Licznik: \(\displaystyle{ \sum_{i=1}^{n} (X_{i} - E(X_{i}) = \sum_{i=1}^{n} X_{i} - n\cdot p}\) .

Mianownik: \(\displaystyle{ \sigma\sqrt{n} = \sqrt{n\cdot p \cdot (1-p)}}\)

P.S.
Proszę nie obrażać mnie po raz kolejny Pr... - ja Pana nie obrażam, tylko Panu współczuję.

a4karo - wzorek ITGMP powinien zaczynać się od \(\displaystyle{ 20000,}\) bo rozpatrujemy zdarzenie losowe \(\displaystyle{ \{X\geq 20000 \}}\) "co najmniej 20000 orłów".
Awatar użytkownika
Premislav
Użytkownik
Użytkownik
Posty: 15687
Rejestracja: 17 sie 2012, o 13:12
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 196 razy
Pomógł: 5221 razy

Centralne tw graniczne i Berry-Essen

Post autor: Premislav »

janusz47 pisze:ja Pana nie obrażam
Na przykład (w innym wątku) bez uzasadnienia nazywając moją wypowiedź bełkotem. Seems legit.
janusz47 pisze:tylko Panu współczuję.
Oj słusznie. Polecam „Pochwałę głupoty" Erazma z Rotterdamu. Tak jakoś dziwnie mi się to dzieło skojarzyło…

To tyle, pozdrowienia dla Pani Jane Goodall, teraz wiem, co mogła czuć (kto ma zrozumieć, ten zrozumie).

Czas na oszacowanie z tw. Berry-Essena (szczerze mówiąc drugi raz w życiu o nim słyszę). Najpierw przytoczę dokładne sformułowanie twierdzenia, które znalazłem (w tej formie, w której może mieć zastosowanie tutaj):
Niech \(\displaystyle{ (X_i)_{i\ge 1}}\) będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, przy czym \(\displaystyle{ \mathbf{E}X_1=0, \ \mathbf{E}\left( X_1^2\right)=\sigma^2>0, \ \mathbf{E}\left( |X_1|^3\right)=\rho<\infty}\) .
Niech \(\displaystyle{ F_n(x) \ (n \in \NN^+)}\) będzie dystrybuantą rozkładu prawdopodobieństwa zmiennej losowej \(\displaystyle{ \frac{1}{\sqrt{n}\sigma} \sum_{i=1}^{n}X_i}\) .
Wówczas istnieje taka stała \(\displaystyle{ C>0}\) (znalazłem na angielskiej wiki nowsze wyniki niż z 2009, ale powiedzmy, że przyjmiemy tę wartość podaną przez Tyurina z 2009 roku: \(\displaystyle{ C=0,5894}\) ), że dla wszystkich \(\displaystyle{ x \in \RR}\) i wszystkich \(\displaystyle{ n \in \NN^+}\) zachodzi nierówność:
\(\displaystyle{ \left| F_n(x)-\Phi(x)\right| \le \frac{C\rho}{\sigma^3 \sqrt{n}}}\) ,
gdzie \(\displaystyle{ \Phi(x)}\) to dystrybuanta standardowego rozkładu normalnego.

Mamy w zadaniu \(\displaystyle{ 40 000}\) niezależnych zmiennych losowych o jednakowym rozkładzie dwupunktowym z \(\displaystyle{ \mathbf{P}(X_1=1)=\frac 1 2=1-\mathbf{P}(X=0)}\) .
Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R: pnorm(-0.01) daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .

Następnie przejdziemy do samego zastosowania tw. Berry-Essena:
Dla naszych \(\displaystyle{ X_i}\) niezależnych o jednakowym rozkładzie dwupunktowym, jak wyżej, zmienne losowe \(\displaystyle{ Y_i=X_i-\mu, \ i=1\ldots 40000}\) (przypominam, że \(\displaystyle{ \mu=\frac 1 2}\) ) spełniają założenia tw. Berry-Essena:
Oczywiście \(\displaystyle{ \mathbf{E}Y_1=\mathbf{E}\left(X_1-\frac 1 2\right)=\mathbf{E}X_1-\frac 1 2=\frac 1 2-\frac 1 2=0}\) .
Ponadto \(\displaystyle{ \sigma^2=\mathrm{Var}Y_1=\mathrm{Var}(Y_1+\mu)=\mathrm{Var}X_1=\frac 1 4>0}\) .
Wreszcie \(\displaystyle{ \rho=\mathbf{E}\left(|Y_1|^3\right)=\mathbf{E}\left( \left|X_1-\frac 1 2\right|^3\right) =\frac{1}{8}}\) .
Dzieje się tak, gdyż skoro \(\displaystyle{ X_1}\) ma rozkład dwupunktowy na \(\displaystyle{ \left\{ 0,1\right\}}\) , to z prawdopodobieństwem \(\displaystyle{ 1}\) mamy \(\displaystyle{ \left|X_1-\frac 1 2\right|=\frac 1 2}\) , tj.
\(\displaystyle{ \left|X_1-\frac 1 2\right|^3=\frac18}\) .
Rzecz jasna \(\displaystyle{ Y_i}\) też są niezależne, o tym samym rozkładzie, zatem z tw. Berry-Essena mamy w szczególności:
\(\displaystyle{ \left| \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}Y_i \le - \frac{1}{\frac 1 2\cdot 200} \right)-\Phi(-0,01)\right| \le \frac{0,5894 \cdot \frac 1 8}{\left( \frac 1 2\right)^3 \cdot \sqrt{40 000} }= \frac{0,5894}{200}=\\=0,002947}\)
Czyli, wracając, możemy oszacować (przy \(\displaystyle{ \Phi}\) też powinny być przybliżenia, ja to wiem):
\(\displaystyle{ 0,4930636=\Phi(-0,01)-0,002947\le \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)\le \\ \le \Phi(-0,01)+0,002947=0,4989576}\)
Stąd dostajemy:
\(\displaystyle{ 0,5069364=1- 0,4930636\ge \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right) \ge \\ \ge 1-0,4989576=0,5010424}\)
Teraz możemy to porównać z oszacowaniem pokazanym przez usera a4karo.
Wolfram napisał mi, że \(\displaystyle{ \frac{1}{2}\left(1+\frac{1}{\sqrt{20000\pi}}\right)\approx 0,5019947}\) .

Jeżeli ktoś widzi jakieś błędy w moich rachunkach lub w rozumowaniu, bardzo proszę je wskazać, obiecuję, że w mojej odpowiedzi nie odeślę uważnego Czytelnika do książek. 8-)

-- 29 gru 2017, o 04:39 --

Proszę też (o ile to możliwe), żeby nie usuwać moich uwag do użytkownika janusz47 z powyższego posta (acz zgadzam się, że są one niegrzeczne), jeśli już, to prędzej poczęstować mnie ostrzeżeniem.
a4karo
Użytkownik
Użytkownik
Posty: 22210
Rejestracja: 15 maja 2011, o 20:55
Płeć: Mężczyzna
Lokalizacja: Bydgoszcz
Podziękował: 38 razy
Pomógł: 3755 razy

Centralne tw graniczne i Berry-Essen

Post autor: a4karo »

Premislav pisze: Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R: pnorm(-0.01) daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .
Zastosujmy to samo do policzenia:
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)}\) .
Stosując tę samą technikę dostajemy, że \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)\approx \frac{1}{2}}\) , zatem
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)\approx \frac{1}{2}=\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19999 \right)\approx 0.496}\) .

Ooops... jaka powinna być ta dziura, żeby statystyka uznała dwie liczby za różne?
janusz47
Użytkownik
Użytkownik
Posty: 7917
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Centralne tw graniczne i Berry-Essen

Post autor: janusz47 »

a4karo zasada standaryzacji w twierdzeniu de Moivre'a-Laplace'a jest jedna.
Awatar użytkownika
Premislav
Użytkownik
Użytkownik
Posty: 15687
Rejestracja: 17 sie 2012, o 13:12
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 196 razy
Pomógł: 5221 razy

Centralne tw graniczne i Berry-Essen

Post autor: Premislav »

a4karo, słuszna uwaga, doczytałem trochę (wolę prozę od tego, co mam na studiach, więc tak się złożyło, że tego nie znałem) i doszukałem się czegoś takiego:

Kod: Zaznacz cały

https://en.wikipedia.org/wiki/Continuity_correction

Można by skorygować powyższe obliczenia w oparciu o tę poprawkę.
Ta korekta została też pokrótce przedstawiona

Kod: Zaznacz cały

https://math.stackexchange.com/questions/416150/what-is-continuity-correction-in-statistics

Ten artykulik Fellera, który jest wzmiankowany w bibliografii do powyższego hasła z angielskiej wiki, spokojnie można sobie wyszukać w necie i przeczytać.
ODPOWIEDZ