Centralne tw graniczne i Berry-Essen

janusz47 · Post autor: **janusz47** » 28 gru 2017, o 22:46

Wzajemnie.

cichy767 · Post autor: **cichy767** » 28 gru 2017, o 23:04

Dziękuje za pomoc ale z tego co wiem to miałem skorzystać z wzoru CTG Lindeberga-Lévy’ego:
\(\displaystyle{ \frac{ \sum_{i=1}^{n} (Xi-u)}{\sigma \sqrt{n} }}\)
\(\displaystyle{ EX=u}\)
\(\displaystyle{ D^2X=\sigma^2}\)

No właśnie pewnie słabe pytanie, ale jak policzyć tutaj \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ?
Wydaje mi się, że \(\displaystyle{ u=1/2}\) i \(\displaystyle{ \sigma^2=1/4}\) , ale nie jestem pewny.

Premislav · Post autor: **Premislav** » 28 gru 2017, o 23:16

janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a.

Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).

Mała scenka na podstawie tego wątku:
– Uważam, że niepoprawnie obliczyłeś tę całkę.
– Co ty, podstawienia Eulera obrażasz, łajzo?! Euler wyczyniał cuda zanim twoi starzy pierwszy raz poszli do łóżka, chamie łysy. Jak ten śmieć śmie…

Ja nie wiem, może tak kiedyś gdzieniegdzie uczono czytania ze zrozumieniem, żeby ludzie łykali gospodarkę socjalistyczną i inne głupoty. W każdym razie to przykre, że ktoś kto skończył matematykę pokazuje taki poziom kultury dyskusji. Niestety ostatnimi czasy Kod: Zaznacz cały
https://www.youtube.com/watch?v=KUuk4bzI1rQ
, taka jest moja opinia.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

cichy767, zgadza się, wg Twoich oznaczeń \(\displaystyle{ u=\frac 1 2, \ \sigma^2=\frac 1 4}\) , ale gwoli ścisłości, to nie jest odpowiedź na pytanie „jak policzyć \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ”.
Poza tym z uwagi na fakt, iż suma \(\displaystyle{ n}\) niezależnych zmiennych losowych \(\displaystyle{ X_1, \ldots X_n}\) o tym samym rozkładzie dwupunktowym (zero-jedynkowym, z \(\displaystyle{ \mathbf{P}(X_i=1)=p}\) ) ma rozkład dwumianowy z parametrami \(\displaystyle{ n, p}\) , tak naprawdę integralne tw. de Moivre'a-Laplace'a daje tu dokładnie to samo, co CTG Lindeberga-Lévy'ego (to pierwsze można traktować w zasadzie jak szczególny przypadek drugiego).
EDIT: Sorry, \(\displaystyle{ \sigma^2}\) , a nie \(\displaystyle{ \sigma}\) , wariancja dla pojedynczej zmiennej wynosi \(\displaystyle{ \frac 1 4}\) , a odchylenie \(\displaystyle{ \frac 1 2}\) , więc \(\displaystyle{ \sigma=\frac 1 2}\) .

a4karo · Post autor: **a4karo** » 28 gru 2017, o 23:38

Premislav pisze:janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a.
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).

Prawda. Na początku była poprawna formułą z \(\displaystyle{ \approx}\), potem się falki wyprostowały.

Z drugiej strony w zdarzeniu \(\displaystyle{ X\geq 20000}\) jest \(\displaystyle{ 20001}\) zdarzeń sprzyjających, więc wzorek powinien być taki:
\(\displaystyle{ \Pr( X \geq 20000) = 1 - \Pr \left ( Z < \frac{{\red 20001} - 40000\cdot \frac{1}{2}}{\sqrt{40000\cdot \frac{1}{2}(1 -\frac{1}{2})}} \right)}\)

janusz47 · Post autor: **janusz47** » 29 gru 2017, o 00:18

Kol. Cichy 767

Twierdzenie Lindenberga-Levy dla zmiennych losowych \(\displaystyle{ X_{i}\ \ i = 1,2...40000}\) o rozkładzie Bernoulli przy Twoich oznaczeniach: \(\displaystyle{ E(X) = u = \frac{1}{2}=p}\) i \(\displaystyle{ D^2 (X) = \sigma^2 = p\cdot (1-p) = \frac{1}{2}\cdot \frac{1}{2}= \frac{1}{4}}\) , to postać twierdzenia de Moivre'a-Laplace'a.

Licznik: \(\displaystyle{ \sum_{i=1}^{n} (X_{i} - E(X_{i}) = \sum_{i=1}^{n} X_{i} - n\cdot p}\) .

Mianownik: \(\displaystyle{ \sigma\sqrt{n} = \sqrt{n\cdot p \cdot (1-p)}}\)

P.S.
Proszę nie obrażać mnie po raz kolejny Pr... - ja Pana nie obrażam, tylko Panu współczuję.

a4karo - wzorek ITGMP powinien zaczynać się od \(\displaystyle{ 20000,}\) bo rozpatrujemy zdarzenie losowe \(\displaystyle{ \{X\geq 20000 \}}\) "co najmniej 20000 orłów".

Premislav · Post autor: **Premislav** » 29 gru 2017, o 03:37

janusz47 pisze:ja Pana nie obrażam

Na przykład (w innym wątku) bez uzasadnienia nazywając moją wypowiedź bełkotem. Seems legit.

janusz47 pisze:tylko Panu współczuję.

Oj słusznie. Polecam „Pochwałę głupoty" Erazma z Rotterdamu. Tak jakoś dziwnie mi się to dzieło skojarzyło…

To tyle, pozdrowienia dla Pani Jane Goodall, teraz wiem, co mogła czuć (kto ma zrozumieć, ten zrozumie).

Czas na oszacowanie z tw. Berry-Essena (szczerze mówiąc drugi raz w życiu o nim słyszę). Najpierw przytoczę dokładne sformułowanie twierdzenia, które znalazłem (w tej formie, w której może mieć zastosowanie tutaj):
Niech \(\displaystyle{ (X_i)_{i\ge 1}}\) będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, przy czym \(\displaystyle{ \mathbf{E}X_1=0, \ \mathbf{E}\left( X_1^2\right)=\sigma^2>0, \ \mathbf{E}\left( |X_1|^3\right)=\rho<\infty}\) .
Niech \(\displaystyle{ F_n(x) \ (n \in \NN^+)}\) będzie dystrybuantą rozkładu prawdopodobieństwa zmiennej losowej \(\displaystyle{ \frac{1}{\sqrt{n}\sigma} \sum_{i=1}^{n}X_i}\) .
Wówczas istnieje taka stała \(\displaystyle{ C>0}\) (znalazłem na angielskiej wiki nowsze wyniki niż z 2009, ale powiedzmy, że przyjmiemy tę wartość podaną przez Tyurina z 2009 roku: \(\displaystyle{ C=0,5894}\) ), że dla wszystkich \(\displaystyle{ x \in \RR}\) i wszystkich \(\displaystyle{ n \in \NN^+}\) zachodzi nierówność:
\(\displaystyle{ \left| F_n(x)-\Phi(x)\right| \le \frac{C\rho}{\sigma^3 \sqrt{n}}}\) ,
gdzie \(\displaystyle{ \Phi(x)}\) to dystrybuanta standardowego rozkładu normalnego.

Mamy w zadaniu \(\displaystyle{ 40 000}\) niezależnych zmiennych losowych o jednakowym rozkładzie dwupunktowym z \(\displaystyle{ \mathbf{P}(X_1=1)=\frac 1 2=1-\mathbf{P}(X=0)}\) .
Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R: pnorm(-0.01) daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .

Następnie przejdziemy do samego zastosowania tw. Berry-Essena:
Dla naszych \(\displaystyle{ X_i}\) niezależnych o jednakowym rozkładzie dwupunktowym, jak wyżej, zmienne losowe \(\displaystyle{ Y_i=X_i-\mu, \ i=1\ldots 40000}\) (przypominam, że \(\displaystyle{ \mu=\frac 1 2}\) ) spełniają założenia tw. Berry-Essena:
Oczywiście \(\displaystyle{ \mathbf{E}Y_1=\mathbf{E}\left(X_1-\frac 1 2\right)=\mathbf{E}X_1-\frac 1 2=\frac 1 2-\frac 1 2=0}\) .
Ponadto \(\displaystyle{ \sigma^2=\mathrm{Var}Y_1=\mathrm{Var}(Y_1+\mu)=\mathrm{Var}X_1=\frac 1 4>0}\) .
Wreszcie \(\displaystyle{ \rho=\mathbf{E}\left(|Y_1|^3\right)=\mathbf{E}\left( \left|X_1-\frac 1 2\right|^3\right) =\frac{1}{8}}\) .
Dzieje się tak, gdyż skoro \(\displaystyle{ X_1}\) ma rozkład dwupunktowy na \(\displaystyle{ \left\{ 0,1\right\}}\) , to z prawdopodobieństwem \(\displaystyle{ 1}\) mamy \(\displaystyle{ \left|X_1-\frac 1 2\right|=\frac 1 2}\) , tj.
\(\displaystyle{ \left|X_1-\frac 1 2\right|^3=\frac18}\) .
Rzecz jasna \(\displaystyle{ Y_i}\) też są niezależne, o tym samym rozkładzie, zatem z tw. Berry-Essena mamy w szczególności:
\(\displaystyle{ \left| \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}Y_i \le - \frac{1}{\frac 1 2\cdot 200} \right)-\Phi(-0,01)\right| \le \frac{0,5894 \cdot \frac 1 8}{\left( \frac 1 2\right)^3 \cdot \sqrt{40 000} }= \frac{0,5894}{200}=\\=0,002947}\)
Czyli, wracając, możemy oszacować (przy \(\displaystyle{ \Phi}\) też powinny być przybliżenia, ja to wiem):
\(\displaystyle{ 0,4930636=\Phi(-0,01)-0,002947\le \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)\le \\ \le \Phi(-0,01)+0,002947=0,4989576}\)
Stąd dostajemy:
\(\displaystyle{ 0,5069364=1- 0,4930636\ge \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right) \ge \\ \ge 1-0,4989576=0,5010424}\)
Teraz możemy to porównać z oszacowaniem pokazanym przez usera a4karo.
Wolfram napisał mi, że \(\displaystyle{ \frac{1}{2}\left(1+\frac{1}{\sqrt{20000\pi}}\right)\approx 0,5019947}\) .

Jeżeli ktoś widzi jakieś błędy w moich rachunkach lub w rozumowaniu, bardzo proszę je wskazać, obiecuję, że w mojej odpowiedzi nie odeślę uważnego Czytelnika do książek.

-- 29 gru 2017, o 04:39 --

Proszę też (o ile to możliwe), żeby nie usuwać moich uwag do użytkownika janusz47 z powyższego posta (acz zgadzam się, że są one niegrzeczne), jeśli już, to prędzej poczęstować mnie ostrzeżeniem.

a4karo · Post autor: **a4karo** » 29 gru 2017, o 08:39

Premislav pisze: Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R: pnorm(-0.01) daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .

Zastosujmy to samo do policzenia:
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)}\) .
Stosując tę samą technikę dostajemy, że \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)\approx \frac{1}{2}}\) , zatem
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)\approx \frac{1}{2}=\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19999 \right)\approx 0.496}\) .

Ooops... jaka powinna być ta dziura, żeby statystyka uznała dwie liczby za różne?

janusz47 · Post autor: **janusz47** » 29 gru 2017, o 11:04

a4karo zasada standaryzacji w twierdzeniu de Moivre'a-Laplace'a jest jedna.

Premislav · Post autor: **Premislav** » 29 gru 2017, o 13:20

a4karo, słuszna uwaga, doczytałem trochę (wolę prozę od tego, co mam na studiach, więc tak się złożyło, że tego nie znałem) i doszukałem się czegoś takiego:

Kod: Zaznacz cały

https://en.wikipedia.org/wiki/Continuity_correction

Można by skorygować powyższe obliczenia w oparciu o tę poprawkę.
Ta korekta została też pokrótce przedstawiona

Kod: Zaznacz cały

https://math.stackexchange.com/questions/416150/what-is-continuity-correction-in-statistics

Ten artykulik Fellera, który jest wzmiankowany w bibliografii do powyższego hasła z angielskiej wiki, spokojnie można sobie wyszukać w necie i przeczytać.