Poziom ufności przy dużej liczbie obiektów

Przemek81 · Post autor: **Przemek81** » 22 lis 2018, o 17:36

Cześć,

Próbuję w ramach projektu, który realizuję rozwiązać pewien problem, co do którego niestety brakuje mi warsztatu pojęciowego, aby odpowiednio poszukać informacji o sposobie jego rozwiązania.

Problem jest następujący:
Mam listę, stanowiącą - w założeniu - kompletny spis \(\displaystyle{ n}\) osobników danej populacji. Potrzebuję z zachowaniem konkretnego poziomu ufności \(\displaystyle{ u}\) stwierdzić, czy lista ta jest kompletna, poprzez sprawdzenie, czy znajduje się na niej \(\displaystyle{ k}\) losowo wybranych osobników z tejże populacji. Zakładam, że losowość doboru osobników nie ma (lub nie powinna mieć) znaczenia. Jak wyliczyć parametr \(\displaystyle{ k,}\) aby osiągnąć poziom ufności \(\displaystyle{ u}\)?

Przykład: Załóżmy, że populacja Polski liczy \(\displaystyle{ 10\ 000\ 000}\) mieszkańców i każdy z nich ma unikalny numer telefonu. Posiadam też książkę telefoniczną z - teoretycznie - listą wszystkich mieszkańców Polski. Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć \(\displaystyle{ 90/95/99\%}\) pewności, że posiadana książka telefoniczna jest kompletna?

Będę bardzo wdzięczny za podpowiedź jak ugryźć ten problem. Przebiłem się w miarę moich skromnych możliwości przez kilka pojęć typu "estymacja metodą największej wiarygodności", "wyznaczanie liczebności próby losowej potrzebną do osiągnięcia zakładanej dokładności", "najbardziej prawdopodobna liczba sukcesów", "rozkład t-Studenta" i kilka innych, natomiast albo nie potrafię ich dopasować do mojego problemu albo szukam nie tam gdzie trzeba.

Jak się do tego zabrać? Jest jakaś metoda, która została stworzona do problemów tego typu? Ewentualnie kilka metod, które trzeba złozyć w całość?

Z góry dziękuję za wszelkie sugestie i podpowiedzi!

Pozdrawiam,
Przemek

janusz47 · Post autor: **janusz47** » 22 lis 2018, o 19:24

Z jakim przyjętym błędem \(\displaystyle{ d}\) wymagane jest to oszacowanie liczebności próby?

Przemek81 · Post autor: **Przemek81** » 22 lis 2018, o 19:42

Hej!

Dzięki za podjęcie tematu!

Trochę błądzę po omacku, natomiast jeżeli dobrze zrozumiałem teorię, to \(\displaystyle{ d}\) jest równy połowie długości całego przedziału ufności. Jeżeli założę, że akceptowalny dla mnie przedział ufności mieści się od \(\displaystyle{ 95\%}\) do \(\displaystyle{ 99\%}\) to mój \(\displaystyle{ d}\) wyniesie \(\displaystyle{ 2\%}\).

janusz47 · Post autor: **janusz47** » 23 lis 2018, o 12:51

Masz rację.

Znajdujemy potrzebną liczność próby dla szacowania proporcji

\(\displaystyle{ n' = \frac{z^2_{\alpha}}{d^2}.}\)

leg14 · Post autor: **leg14** » 25 lis 2018, o 22:49

janusz47, czym jest to zet algfa?

Moja propozycja:
mamy zmienną pokrśloną na populacji - \(\displaystyle{ X(w)}\)
\(\displaystyle{ X(w) =1 \Leftrightarrow}\) osobnik \(\displaystyle{ w}\) nie znajduje się w spisie (liście),
\(\displaystyle{ X(w) = 0}\) w przeciwnym przypadku.
Interesuje nas oszacowanie \(\displaystyle{ \EE(X)}\) (jaka część populacji nie znajduje się w spisie.

Stosujemy nierówność Hoeffding'a (

\(\displaystyle{ \PP(\overline{X} - \EE(X) \ge \epsilon) \le e^{-2n\epsilon^2}}\)

-- 25 lis 2018, o 23:51 --

ten sposób możesz oszacować ilu osobników nie ma w spisie i dopasować liczebność próby tak by osiągnąć zadowalający Cię rezultat.

Stwierdzenie

Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć 90/95/99\% pewności, że posiadana książka telefoniczna jest kompletna?

Nie ma sensu, dpóki nie sprecyzujesz co oznacza posiadanie \(\displaystyle{ 95%}\) pewności

Przemek81 · Post autor: **Przemek81** » 26 lis 2018, o 15:09

Dzięki za odpowiedzi leg14 i janusz47!

Skupiłem się na nierówności Hoeffding'a, chociaż przyznaję, że nie do końca rozumiem jej działanie. W wyniku dalszej lektury wyczytałem, że po rozwiązaniu i przekształceniu tej nierówności otrzymam:
\(\displaystyle{ n \le \frac{log( \frac{2}{ \alpha } )}{2 \epsilon^2}}\)
i teraz jeżeli dobrze to rozumiem, to \(\displaystyle{ n}\) to ilość moich prób, \(\displaystyle{ \alpha}\) to mój poziom ufności, czy też dokładnie błąd jaki jestem w stanie zaakceptować (tutaj np. 5%). A czym w takim razie jest \(\displaystyle{ \epsilon}\) ?
Na Wikipedii widziałem, że \(\displaystyle{ \epsilon}\) wyrażony był jako \(\displaystyle{ t}\), wraz z komentarzem, że potrzebuję przynajmniej \(\displaystyle{ n}\) prób, aby osiągnąć poziom pewności \(\displaystyle{ 1- \alpha}\) dla przedziału \(\displaystyle{ E[\overline{X}] \pm t}\). Mam w związku z tym wątpliwość, jak w moim przypadu policzyć \(\displaystyle{ E[\overline{X}]}\), skoro - jeżeli dobrze rozumiem - mój \(\displaystyle{ E[\overline{X}] = 1}\) ponieważ nie mam możliwości policzenia średniej wartości na określonej populacji, jeżeli wyrażona jest ona wyłącznie stanem jest/nie jest. Jeżeli miałbym jakąś wartość średnią i mógł poprzez \(\displaystyle{ t}\) określić poziom ufności, to miałoby to sens. Póki co jestem ciągle w kropce.
I gdzie jest tu związek z licznością populacji?

Dzięki za dalsze wskazówki!

janusz47 Czy mógłbym Cię prosić o rozwinięcie Twojej propozycji? nie wiem niestety czym jest zet alpha. Dziękuję!

janusz47 · Post autor: **janusz47** » 26 lis 2018, o 20:05

\(\displaystyle{ z_{\alpha}}\) jest kwantylem rzędu \(\displaystyle{ \alpha}\) standaryzowanego rozkładu normalnego.

Na przykład dla poziomu ufności \(\displaystyle{ 0,95}\) z tablic dystrybuanty rozkładu \(\displaystyle{ N(0,1)}\) lub programu komputerowego na przykład \(\displaystyle{ R ,\ \ \phi( z_{0.025}) = 0,975, \ \ z_{0,025}\approx 1,96.}\)

Program R

Kod: Zaznacz cały

> z0.025 = qnorm(0.975)
> z0.025
[1] 1.959964

Przemek81 · Post autor: **Przemek81** » 26 lis 2018, o 20:54

Dzięki za wyjaśnienie. Nie będę udawał, że wiem co to, ale z tablic potrafię korzystać, a samo pojęcie postaram się mimo wszystko zrozumieć.

Nie daje mi spokoju natomiast jedna rzecz, gdzie w Twojej propozycji tj. \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) odniesienie do liczności populacji? Coś najwyraźniej pomijam w zrozumieniu jak tego użyć.

janusz47 · Post autor: **janusz47** » 26 lis 2018, o 21:20

Z tego wzoru dla danego poziomu i założonej dokładności - obliczamy jak wielka musi być próba danej populacji.

leg14 · Post autor: **leg14** » 26 lis 2018, o 22:59

Janusz przecież widzisz, że autor nei rozumie o co Ci chodzi. Poza tym nie powinno się stosować metod asymptotycznych w przypadku sytuacji odpowiednich dla metod nieparametrycznych.

Przemek, moje rozwiązanie zakłada, że nie znamy liczebności populacji i pomylilo mi sie powinienes rozwazac nierownosc Hoeffding'a w druga strone, tzn:

\(\displaystyle{ \PP(| \overline{X} - \EE(X)| \ge \epsilon) \le 2e^{-2n \epsilon^{2}}}\)

Wyliczasz średnią z póbki o rozmiarze \(\displaystyle{ n}\) (oznaczenie \(\displaystyle{ \overline{X}}\)) i moja metoda Ci mówi:
z poziomem ufności \(\displaystyle{ 2e^{-2n\epsilon^2}}\)
mamy iż procent populacji nieuwzględniony w spisie jest mniejszy niż
\(\displaystyle{ \overline{X} + \epsilon}\). Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.

Przemek81 · Post autor: **Przemek81** » 28 lis 2018, o 21:36

Ponownie dzięki za odpowiedzi!

Rozumiem z tego co piszecie coraz mniej, ale postaram się konstruktywnie odnieść do obu odpowiedzi:

janusz47 napisałeś:

Z tego wzoru dla danego poziomu i założonej dokładności - obliczamy jak wielka musi być próba danej populacji.

Wzór wygląda tak: \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) . Nie potrafię zrozumieć jak bez uwzględnienia liczności populacji na której przeprowadzam badanie mogę określić rozmiar próby? Na logikę inny będzie rozmiar próby dla populacji, która liczy \(\displaystyle{ 1 000 000}\) osobników, a inny dla liczącej \(\displaystyle{ 20 000 000}\). A zakładam, że liczbę osobników w populacji znam, znam również poziom ufności, który chcę osiągnąć i akceptowalny dla mnie błąd. Brakuje mi tylko rozmiaru próby, aby dany poziom ufności, przy znanym poziomie błędu i liczności populacji osiągnąć.

leg14 drugi dzień staram się ugryźć to co napisałeś i... nie idzie mi.

Wyliczasz średnią z póbki o rozmiarze n (oznaczenie \(\displaystyle{ \overline{X}}\))
...
Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.

OK, może to oczywiste i po prostu brakuje mi elementarnej wiedzy, ale... jak? Średnią z czego, jeżeli nie mam tutaj żadnej wartości, z której średnią mógłbym policzyć? Mam stan - jest w spisie/nie ma w spisie. A jeżeli moje rozumowanie jest słuszne i nie mam średniej, to i wzlędem czego mam dobierać \(\displaystyle{ \epsilon}\)? I ostatnie pytanie - nawet jeżeli rozważę nierówność w "drugą stronę", to ciągle nie widzę powiązania z liczebnością osobników w populacji, a to trochę ciężko mi pojąć.

Dzięki za dalsze wzkazówki!

Matematyka.pl