Centralne tw graniczne i Berry-Essen
-
- Użytkownik
- Posty: 46
- Rejestracja: 23 paź 2016, o 18:32
- Płeć: Mężczyzna
- Lokalizacja: Wrocław
- Podziękował: 12 razy
Centralne tw graniczne i Berry-Essen
Dziękuje za pomoc ale z tego co wiem to miałem skorzystać z wzoru CTG Lindeberga-Lévy’ego:
\(\displaystyle{ \frac{ \sum_{i=1}^{n} (Xi-u)}{\sigma \sqrt{n} }}\)
\(\displaystyle{ EX=u}\)
\(\displaystyle{ D^2X=\sigma^2}\)
No właśnie pewnie słabe pytanie, ale jak policzyć tutaj \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ?
Wydaje mi się, że \(\displaystyle{ u=1/2}\) i \(\displaystyle{ \sigma^2=1/4}\) , ale nie jestem pewny.
\(\displaystyle{ \frac{ \sum_{i=1}^{n} (Xi-u)}{\sigma \sqrt{n} }}\)
\(\displaystyle{ EX=u}\)
\(\displaystyle{ D^2X=\sigma^2}\)
No właśnie pewnie słabe pytanie, ale jak policzyć tutaj \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ?
Wydaje mi się, że \(\displaystyle{ u=1/2}\) i \(\displaystyle{ \sigma^2=1/4}\) , ale nie jestem pewny.
- Premislav
- Użytkownik
- Posty: 15687
- Rejestracja: 17 sie 2012, o 13:12
- Płeć: Mężczyzna
- Lokalizacja: Warszawa
- Podziękował: 196 razy
- Pomógł: 5221 razy
Centralne tw graniczne i Berry-Essen
janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a.
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).
Mała scenka na podstawie tego wątku:
– Uważam, że niepoprawnie obliczyłeś tę całkę.
– Co ty, podstawienia Eulera obrażasz, łajzo?! Euler wyczyniał cuda zanim twoi starzy pierwszy raz poszli do łóżka, chamie łysy. Jak ten śmieć śmie…
Ja nie wiem, może tak kiedyś gdzieniegdzie uczono czytania ze zrozumieniem, żeby ludzie łykali gospodarkę socjalistyczną i inne głupoty. W każdym razie to przykre, że ktoś kto skończył matematykę pokazuje taki poziom kultury dyskusji. Niestety ostatnimi czasy, taka jest moja opinia.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
cichy767, zgadza się, wg Twoich oznaczeń \(\displaystyle{ u=\frac 1 2, \ \sigma^2=\frac 1 4}\) , ale gwoli ścisłości, to nie jest odpowiedź na pytanie „jak policzyć \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ”.
Poza tym z uwagi na fakt, iż suma \(\displaystyle{ n}\) niezależnych zmiennych losowych \(\displaystyle{ X_1, \ldots X_n}\) o tym samym rozkładzie dwupunktowym (zero-jedynkowym, z \(\displaystyle{ \mathbf{P}(X_i=1)=p}\) ) ma rozkład dwumianowy z parametrami \(\displaystyle{ n, p}\) , tak naprawdę integralne tw. de Moivre'a-Laplace'a daje tu dokładnie to samo, co CTG Lindeberga-Lévy'ego (to pierwsze można traktować w zasadzie jak szczególny przypadek drugiego).
EDIT: Sorry, \(\displaystyle{ \sigma^2}\) , a nie \(\displaystyle{ \sigma}\) , wariancja dla pojedynczej zmiennej wynosi \(\displaystyle{ \frac 1 4}\) , a odchylenie \(\displaystyle{ \frac 1 2}\) , więc \(\displaystyle{ \sigma=\frac 1 2}\) .
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).
Mała scenka na podstawie tego wątku:
– Uważam, że niepoprawnie obliczyłeś tę całkę.
– Co ty, podstawienia Eulera obrażasz, łajzo?! Euler wyczyniał cuda zanim twoi starzy pierwszy raz poszli do łóżka, chamie łysy. Jak ten śmieć śmie…
Ja nie wiem, może tak kiedyś gdzieniegdzie uczono czytania ze zrozumieniem, żeby ludzie łykali gospodarkę socjalistyczną i inne głupoty. W każdym razie to przykre, że ktoś kto skończył matematykę pokazuje taki poziom kultury dyskusji. Niestety ostatnimi czasy
Kod: Zaznacz cały
https://www.youtube.com/watch?v=KUuk4bzI1rQ
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
cichy767, zgadza się, wg Twoich oznaczeń \(\displaystyle{ u=\frac 1 2, \ \sigma^2=\frac 1 4}\) , ale gwoli ścisłości, to nie jest odpowiedź na pytanie „jak policzyć \(\displaystyle{ u}\) i \(\displaystyle{ \sigma}\) ”.
Poza tym z uwagi na fakt, iż suma \(\displaystyle{ n}\) niezależnych zmiennych losowych \(\displaystyle{ X_1, \ldots X_n}\) o tym samym rozkładzie dwupunktowym (zero-jedynkowym, z \(\displaystyle{ \mathbf{P}(X_i=1)=p}\) ) ma rozkład dwumianowy z parametrami \(\displaystyle{ n, p}\) , tak naprawdę integralne tw. de Moivre'a-Laplace'a daje tu dokładnie to samo, co CTG Lindeberga-Lévy'ego (to pierwsze można traktować w zasadzie jak szczególny przypadek drugiego).
EDIT: Sorry, \(\displaystyle{ \sigma^2}\) , a nie \(\displaystyle{ \sigma}\) , wariancja dla pojedynczej zmiennej wynosi \(\displaystyle{ \frac 1 4}\) , a odchylenie \(\displaystyle{ \frac 1 2}\) , więc \(\displaystyle{ \sigma=\frac 1 2}\) .
-
- Użytkownik
- Posty: 22210
- Rejestracja: 15 maja 2011, o 20:55
- Płeć: Mężczyzna
- Lokalizacja: Bydgoszcz
- Podziękował: 38 razy
- Pomógł: 3755 razy
Centralne tw graniczne i Berry-Essen
Prawda. Na początku była poprawna formułą z \(\displaystyle{ \approx}\), potem się falki wyprostowały.Premislav pisze:janusz47, na litość boską, przecież nikt nie podważał tu integralnego tw. de Moivre'a-Laplace'a.
Chodzi o to, że m.in. napisałeś równość zamiast przybliżenia, np. \(\displaystyle{ \approx}\)
(inna sprawa, że a4karo dalej tak samo zrobił, choć napisał przed tym wyraźnie, że chodzi o oszacowanie – to też niefajnie).
Z drugiej strony w zdarzeniu \(\displaystyle{ X\geq 20000}\) jest \(\displaystyle{ 20001}\) zdarzeń sprzyjających, więc wzorek powinien być taki:
\(\displaystyle{ \Pr( X \geq 20000) = 1 - \Pr \left ( Z < \frac{{\red 20001} - 40000\cdot \frac{1}{2}}{\sqrt{40000\cdot \frac{1}{2}(1 -\frac{1}{2})}} \right)}\)
-
- Użytkownik
- Posty: 7917
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1671 razy
Centralne tw graniczne i Berry-Essen
Kol. Cichy 767
Twierdzenie Lindenberga-Levy dla zmiennych losowych \(\displaystyle{ X_{i}\ \ i = 1,2...40000}\) o rozkładzie Bernoulli przy Twoich oznaczeniach: \(\displaystyle{ E(X) = u = \frac{1}{2}=p}\) i \(\displaystyle{ D^2 (X) = \sigma^2 = p\cdot (1-p) = \frac{1}{2}\cdot \frac{1}{2}= \frac{1}{4}}\) , to postać twierdzenia de Moivre'a-Laplace'a.
Licznik: \(\displaystyle{ \sum_{i=1}^{n} (X_{i} - E(X_{i}) = \sum_{i=1}^{n} X_{i} - n\cdot p}\) .
Mianownik: \(\displaystyle{ \sigma\sqrt{n} = \sqrt{n\cdot p \cdot (1-p)}}\)
P.S.
Proszę nie obrażać mnie po raz kolejny Pr... - ja Pana nie obrażam, tylko Panu współczuję.
a4karo - wzorek ITGMP powinien zaczynać się od \(\displaystyle{ 20000,}\) bo rozpatrujemy zdarzenie losowe \(\displaystyle{ \{X\geq 20000 \}}\) "co najmniej 20000 orłów".
Twierdzenie Lindenberga-Levy dla zmiennych losowych \(\displaystyle{ X_{i}\ \ i = 1,2...40000}\) o rozkładzie Bernoulli przy Twoich oznaczeniach: \(\displaystyle{ E(X) = u = \frac{1}{2}=p}\) i \(\displaystyle{ D^2 (X) = \sigma^2 = p\cdot (1-p) = \frac{1}{2}\cdot \frac{1}{2}= \frac{1}{4}}\) , to postać twierdzenia de Moivre'a-Laplace'a.
Licznik: \(\displaystyle{ \sum_{i=1}^{n} (X_{i} - E(X_{i}) = \sum_{i=1}^{n} X_{i} - n\cdot p}\) .
Mianownik: \(\displaystyle{ \sigma\sqrt{n} = \sqrt{n\cdot p \cdot (1-p)}}\)
P.S.
Proszę nie obrażać mnie po raz kolejny Pr... - ja Pana nie obrażam, tylko Panu współczuję.
a4karo - wzorek ITGMP powinien zaczynać się od \(\displaystyle{ 20000,}\) bo rozpatrujemy zdarzenie losowe \(\displaystyle{ \{X\geq 20000 \}}\) "co najmniej 20000 orłów".
- Premislav
- Użytkownik
- Posty: 15687
- Rejestracja: 17 sie 2012, o 13:12
- Płeć: Mężczyzna
- Lokalizacja: Warszawa
- Podziękował: 196 razy
- Pomógł: 5221 razy
Centralne tw graniczne i Berry-Essen
Na przykład (w innym wątku) bez uzasadnienia nazywając moją wypowiedź bełkotem. Seems legit.janusz47 pisze:ja Pana nie obrażam
Oj słusznie. Polecam „Pochwałę głupoty" Erazma z Rotterdamu. Tak jakoś dziwnie mi się to dzieło skojarzyło…janusz47 pisze:tylko Panu współczuję.
To tyle, pozdrowienia dla Pani Jane Goodall, teraz wiem, co mogła czuć (kto ma zrozumieć, ten zrozumie).
Czas na oszacowanie z tw. Berry-Essena (szczerze mówiąc drugi raz w życiu o nim słyszę). Najpierw przytoczę dokładne sformułowanie twierdzenia, które znalazłem (w tej formie, w której może mieć zastosowanie tutaj):
Niech \(\displaystyle{ (X_i)_{i\ge 1}}\) będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, przy czym \(\displaystyle{ \mathbf{E}X_1=0, \ \mathbf{E}\left( X_1^2\right)=\sigma^2>0, \ \mathbf{E}\left( |X_1|^3\right)=\rho<\infty}\) .
Niech \(\displaystyle{ F_n(x) \ (n \in \NN^+)}\) będzie dystrybuantą rozkładu prawdopodobieństwa zmiennej losowej \(\displaystyle{ \frac{1}{\sqrt{n}\sigma} \sum_{i=1}^{n}X_i}\) .
Wówczas istnieje taka stała \(\displaystyle{ C>0}\) (znalazłem na angielskiej wiki nowsze wyniki niż z 2009, ale powiedzmy, że przyjmiemy tę wartość podaną przez Tyurina z 2009 roku: \(\displaystyle{ C=0,5894}\) ), że dla wszystkich \(\displaystyle{ x \in \RR}\) i wszystkich \(\displaystyle{ n \in \NN^+}\) zachodzi nierówność:
\(\displaystyle{ \left| F_n(x)-\Phi(x)\right| \le \frac{C\rho}{\sigma^3 \sqrt{n}}}\) ,
gdzie \(\displaystyle{ \Phi(x)}\) to dystrybuanta standardowego rozkładu normalnego.
Mamy w zadaniu \(\displaystyle{ 40 000}\) niezależnych zmiennych losowych o jednakowym rozkładzie dwupunktowym z \(\displaystyle{ \mathbf{P}(X_1=1)=\frac 1 2=1-\mathbf{P}(X=0)}\) .
Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R:
pnorm(-0.01)
daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .Następnie przejdziemy do samego zastosowania tw. Berry-Essena:
Dla naszych \(\displaystyle{ X_i}\) niezależnych o jednakowym rozkładzie dwupunktowym, jak wyżej, zmienne losowe \(\displaystyle{ Y_i=X_i-\mu, \ i=1\ldots 40000}\) (przypominam, że \(\displaystyle{ \mu=\frac 1 2}\) ) spełniają założenia tw. Berry-Essena:
Oczywiście \(\displaystyle{ \mathbf{E}Y_1=\mathbf{E}\left(X_1-\frac 1 2\right)=\mathbf{E}X_1-\frac 1 2=\frac 1 2-\frac 1 2=0}\) .
Ponadto \(\displaystyle{ \sigma^2=\mathrm{Var}Y_1=\mathrm{Var}(Y_1+\mu)=\mathrm{Var}X_1=\frac 1 4>0}\) .
Wreszcie \(\displaystyle{ \rho=\mathbf{E}\left(|Y_1|^3\right)=\mathbf{E}\left( \left|X_1-\frac 1 2\right|^3\right) =\frac{1}{8}}\) .
Dzieje się tak, gdyż skoro \(\displaystyle{ X_1}\) ma rozkład dwupunktowy na \(\displaystyle{ \left\{ 0,1\right\}}\) , to z prawdopodobieństwem \(\displaystyle{ 1}\) mamy \(\displaystyle{ \left|X_1-\frac 1 2\right|=\frac 1 2}\) , tj.
\(\displaystyle{ \left|X_1-\frac 1 2\right|^3=\frac18}\) .
Rzecz jasna \(\displaystyle{ Y_i}\) też są niezależne, o tym samym rozkładzie, zatem z tw. Berry-Essena mamy w szczególności:
\(\displaystyle{ \left| \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}Y_i \le - \frac{1}{\frac 1 2\cdot 200} \right)-\Phi(-0,01)\right| \le \frac{0,5894 \cdot \frac 1 8}{\left( \frac 1 2\right)^3 \cdot \sqrt{40 000} }= \frac{0,5894}{200}=\\=0,002947}\)
Czyli, wracając, możemy oszacować (przy \(\displaystyle{ \Phi}\) też powinny być przybliżenia, ja to wiem):
\(\displaystyle{ 0,4930636=\Phi(-0,01)-0,002947\le \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)\le \\ \le \Phi(-0,01)+0,002947=0,4989576}\)
Stąd dostajemy:
\(\displaystyle{ 0,5069364=1- 0,4930636\ge \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right) \ge \\ \ge 1-0,4989576=0,5010424}\)
Teraz możemy to porównać z oszacowaniem pokazanym przez usera a4karo.
Wolfram napisał mi, że \(\displaystyle{ \frac{1}{2}\left(1+\frac{1}{\sqrt{20000\pi}}\right)\approx 0,5019947}\) .
Jeżeli ktoś widzi jakieś błędy w moich rachunkach lub w rozumowaniu, bardzo proszę je wskazać, obiecuję, że w mojej odpowiedzi nie odeślę uważnego Czytelnika do książek.
-- 29 gru 2017, o 04:39 --
Proszę też (o ile to możliwe), żeby nie usuwać moich uwag do użytkownika janusz47 z powyższego posta (acz zgadzam się, że są one niegrzeczne), jeśli już, to prędzej poczęstować mnie ostrzeżeniem.
-
- Użytkownik
- Posty: 22210
- Rejestracja: 15 maja 2011, o 20:55
- Płeć: Mężczyzna
- Lokalizacja: Bydgoszcz
- Podziękował: 38 razy
- Pomógł: 3755 razy
Centralne tw graniczne i Berry-Essen
Zastosujmy to samo do policzenia:Premislav pisze: Chodzi nam o oszacowanie wartości \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 000 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)}\) .
Ostatnia równość zachodzi z uwagi na to, że \(\displaystyle{ \sum_{}^{} X_i}\) przyjmuje tutaj wartości wyłącznie całkowitoliczbowe.
Niech \(\displaystyle{ \mu=\mathbf{E}X_1}\) : nietrudno policzyć, że \(\displaystyle{ \mu=\frac 1 2\cdot 0+\frac 1 2\cdot 1=\frac 1 2}\) . Ponadto:
\(\displaystyle{ \sigma^2=\mathrm{Var} X_1=\mathbf{E}(X_1^2)-(\mathbf{E}X_1)^2=\frac 1 2-\frac 1 4=\frac 1 4}\)
Oczywiście (po prostu standaryzujemy):
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19 999\right)=\mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)}\)
Na mocy CTG Lindeberga-Lévy'ego otrzymujemy przybliżenie:
\(\displaystyle{ \mathbf{P}\left( \frac{1}{\sigma \cdot \sqrt{40000}} \sum_{i=1}^{40 000}(X_i-\mu) \le - \frac{1}{\frac 1 2\cdot 200} \right)\approx \Phi\left( - \frac{1}{100} \right)}\) ,
gdzie \(\displaystyle{ \Phi}\) to dystrybuanta standardowego rozkładu normalnego. Z programu R:pnorm(-0.01)
daje wartość \(\displaystyle{ 0,4960106}\) , tj. \(\displaystyle{ \Phi\left( -\frac{1}{100}\right)\approx 0,4960106}\) .
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)=1-\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)}\) .
Stosując tę samą technikę dostajemy, że \(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 20000\right)\approx \frac{1}{2}}\) , zatem
\(\displaystyle{ \mathbf{P}\left( \sum_{i=1}^{40 000}X_i \ge 20 001 \right)\approx \frac{1}{2}=\mathbf{P}\left( \sum_{i=1}^{40 000}X_i \le 19999 \right)\approx 0.496}\) .
Ooops... jaka powinna być ta dziura, żeby statystyka uznała dwie liczby za różne?
- Premislav
- Użytkownik
- Posty: 15687
- Rejestracja: 17 sie 2012, o 13:12
- Płeć: Mężczyzna
- Lokalizacja: Warszawa
- Podziękował: 196 razy
- Pomógł: 5221 razy
Centralne tw graniczne i Berry-Essen
a4karo, słuszna uwaga, doczytałem trochę (wolę prozę od tego, co mam na studiach, więc tak się złożyło, że tego nie znałem) i doszukałem się czegoś takiego:
Można by skorygować powyższe obliczenia w oparciu o tę poprawkę.
Ta korekta została też pokrótce przedstawiona
Ten artykulik Fellera, który jest wzmiankowany w bibliografii do powyższego hasła z angielskiej wiki, spokojnie można sobie wyszukać w necie i przeczytać.
Kod: Zaznacz cały
https://en.wikipedia.org/wiki/Continuity_correction
Można by skorygować powyższe obliczenia w oparciu o tę poprawkę.
Ta korekta została też pokrótce przedstawiona
Kod: Zaznacz cały
https://math.stackexchange.com/questions/416150/what-is-continuity-correction-in-statistics
Ten artykulik Fellera, który jest wzmiankowany w bibliografii do powyższego hasła z angielskiej wiki, spokojnie można sobie wyszukać w necie i przeczytać.