Poziom ufności przy dużej liczbie obiektów

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Przemek81
Użytkownik
Użytkownik
Posty: 5
Rejestracja: 22 lis 2018, o 17:08
Płeć: Mężczyzna
Lokalizacja: Poznań

Poziom ufności przy dużej liczbie obiektów

Post autor: Przemek81 »

Cześć,

Próbuję w ramach projektu, który realizuję rozwiązać pewien problem, co do którego niestety brakuje mi warsztatu pojęciowego, aby odpowiednio poszukać informacji o sposobie jego rozwiązania.

Problem jest następujący:
Mam listę, stanowiącą - w założeniu - kompletny spis \(\displaystyle{ n}\) osobników danej populacji. Potrzebuję z zachowaniem konkretnego poziomu ufności \(\displaystyle{ u}\) stwierdzić, czy lista ta jest kompletna, poprzez sprawdzenie, czy znajduje się na niej \(\displaystyle{ k}\) losowo wybranych osobników z tejże populacji. Zakładam, że losowość doboru osobników nie ma (lub nie powinna mieć) znaczenia. Jak wyliczyć parametr \(\displaystyle{ k,}\) aby osiągnąć poziom ufności \(\displaystyle{ u}\)?

Przykład: Załóżmy, że populacja Polski liczy \(\displaystyle{ 10\ 000\ 000}\) mieszkańców i każdy z nich ma unikalny numer telefonu. Posiadam też książkę telefoniczną z - teoretycznie - listą wszystkich mieszkańców Polski. Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć \(\displaystyle{ 90/95/99\%}\) pewności, że posiadana książka telefoniczna jest kompletna?

Będę bardzo wdzięczny za podpowiedź jak ugryźć ten problem. Przebiłem się w miarę moich skromnych możliwości przez kilka pojęć typu "estymacja metodą największej wiarygodności", "wyznaczanie liczebności próby losowej potrzebną do osiągnięcia zakładanej dokładności", "najbardziej prawdopodobna liczba sukcesów", "rozkład t-Studenta" i kilka innych, natomiast albo nie potrafię ich dopasować do mojego problemu albo szukam nie tam gdzie trzeba.

Jak się do tego zabrać? Jest jakaś metoda, która została stworzona do problemów tego typu? Ewentualnie kilka metod, które trzeba złozyć w całość?

Z góry dziękuję za wszelkie sugestie i podpowiedzi!

Pozdrawiam,
Przemek
Ostatnio zmieniony 22 lis 2018, o 19:13 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
janusz47
Użytkownik
Użytkownik
Posty: 7918
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Re: Poziom ufności przy dużej liczbie obiektów

Post autor: janusz47 »

Z jakim przyjętym błędem \(\displaystyle{ d}\) wymagane jest to oszacowanie liczebności próby?
Przemek81
Użytkownik
Użytkownik
Posty: 5
Rejestracja: 22 lis 2018, o 17:08
Płeć: Mężczyzna
Lokalizacja: Poznań

Poziom ufności przy dużej liczbie obiektów

Post autor: Przemek81 »

Hej!

Dzięki za podjęcie tematu!

Trochę błądzę po omacku, natomiast jeżeli dobrze zrozumiałem teorię, to \(\displaystyle{ d}\) jest równy połowie długości całego przedziału ufności. Jeżeli założę, że akceptowalny dla mnie przedział ufności mieści się od \(\displaystyle{ 95\%}\) do \(\displaystyle{ 99\%}\) to mój \(\displaystyle{ d}\) wyniesie \(\displaystyle{ 2\%}\).
Ostatnio zmieniony 25 lis 2018, o 22:54 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
janusz47
Użytkownik
Użytkownik
Posty: 7918
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Re: Poziom ufności przy dużej liczbie obiektów

Post autor: janusz47 »

Masz rację.

Znajdujemy potrzebną liczność próby dla szacowania proporcji

\(\displaystyle{ n' = \frac{z^2_{\alpha}}{d^2}.}\)
Awatar użytkownika
leg14
Użytkownik
Użytkownik
Posty: 3132
Rejestracja: 5 lis 2014, o 20:24
Płeć: Mężczyzna
Lokalizacja: Radom
Podziękował: 154 razy
Pomógł: 475 razy

Re: Poziom ufności przy dużej liczbie obiektów

Post autor: leg14 »

janusz47, czym jest to zet algfa?

Moja propozycja:
mamy zmienną pokrśloną na populacji - \(\displaystyle{ X(w)}\)
\(\displaystyle{ X(w) =1 \Leftrightarrow}\) osobnik \(\displaystyle{ w}\) nie znajduje się w spisie (liście),
\(\displaystyle{ X(w) = 0}\) w przeciwnym przypadku.
Interesuje nas oszacowanie \(\displaystyle{ \EE(X)}\) (jaka część populacji nie znajduje się w spisie.

Stosujemy nierówność Hoeffding'a (

\(\displaystyle{ \PP(\overline{X} - \EE(X) \ge \epsilon) \le e^{-2n\epsilon^2}}\)

-- 25 lis 2018, o 23:51 --

ten sposób możesz oszacować ilu osobników nie ma w spisie i dopasować liczebność próby tak by osiągnąć zadowalający Cię rezultat.

Stwierdzenie
Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć 90/95/99\% pewności, że posiadana książka telefoniczna jest kompletna?
Nie ma sensu, dpóki nie sprecyzujesz co oznacza posiadanie \(\displaystyle{ 95%}\) pewności
Przemek81
Użytkownik
Użytkownik
Posty: 5
Rejestracja: 22 lis 2018, o 17:08
Płeć: Mężczyzna
Lokalizacja: Poznań

Poziom ufności przy dużej liczbie obiektów

Post autor: Przemek81 »

Dzięki za odpowiedzi leg14 i janusz47!

Skupiłem się na nierówności Hoeffding'a, chociaż przyznaję, że nie do końca rozumiem jej działanie. W wyniku dalszej lektury wyczytałem, że po rozwiązaniu i przekształceniu tej nierówności otrzymam:
\(\displaystyle{ n \le \frac{log( \frac{2}{ \alpha } )}{2 \epsilon^2}}\)
i teraz jeżeli dobrze to rozumiem, to \(\displaystyle{ n}\) to ilość moich prób, \(\displaystyle{ \alpha}\) to mój poziom ufności, czy też dokładnie błąd jaki jestem w stanie zaakceptować (tutaj np. 5%). A czym w takim razie jest \(\displaystyle{ \epsilon}\) ?
Na Wikipedii widziałem, że \(\displaystyle{ \epsilon}\) wyrażony był jako \(\displaystyle{ t}\), wraz z komentarzem, że potrzebuję przynajmniej \(\displaystyle{ n}\) prób, aby osiągnąć poziom pewności \(\displaystyle{ 1- \alpha}\) dla przedziału \(\displaystyle{ E[\overline{X}] \pm t}\). Mam w związku z tym wątpliwość, jak w moim przypadu policzyć \(\displaystyle{ E[\overline{X}]}\), skoro - jeżeli dobrze rozumiem - mój \(\displaystyle{ E[\overline{X}] = 1}\) ponieważ nie mam możliwości policzenia średniej wartości na określonej populacji, jeżeli wyrażona jest ona wyłącznie stanem jest/nie jest. Jeżeli miałbym jakąś wartość średnią i mógł poprzez \(\displaystyle{ t}\) określić poziom ufności, to miałoby to sens. Póki co jestem ciągle w kropce.
I gdzie jest tu związek z licznością populacji?

Dzięki za dalsze wskazówki!

janusz47 Czy mógłbym Cię prosić o rozwinięcie Twojej propozycji? nie wiem niestety czym jest zet alpha. Dziękuję!
janusz47
Użytkownik
Użytkownik
Posty: 7918
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Re: Poziom ufności przy dużej liczbie obiektów

Post autor: janusz47 »

\(\displaystyle{ z_{\alpha}}\) jest kwantylem rzędu \(\displaystyle{ \alpha}\) standaryzowanego rozkładu normalnego.

Na przykład dla poziomu ufności \(\displaystyle{ 0,95}\) z tablic dystrybuanty rozkładu \(\displaystyle{ N(0,1)}\) lub programu komputerowego na przykład \(\displaystyle{ R ,\ \ \phi( z_{0.025}) = 0,975, \ \ z_{0,025}\approx 1,96.}\)

Program R

Kod: Zaznacz cały

> z0.025 = qnorm(0.975)
> z0.025
[1] 1.959964
Przemek81
Użytkownik
Użytkownik
Posty: 5
Rejestracja: 22 lis 2018, o 17:08
Płeć: Mężczyzna
Lokalizacja: Poznań

Poziom ufności przy dużej liczbie obiektów

Post autor: Przemek81 »

Dzięki za wyjaśnienie. Nie będę udawał, że wiem co to, ale z tablic potrafię korzystać, a samo pojęcie postaram się mimo wszystko zrozumieć.

Nie daje mi spokoju natomiast jedna rzecz, gdzie w Twojej propozycji tj. \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) odniesienie do liczności populacji? Coś najwyraźniej pomijam w zrozumieniu jak tego użyć.
janusz47
Użytkownik
Użytkownik
Posty: 7918
Rejestracja: 18 mar 2009, o 16:24
Płeć: Mężczyzna
Podziękował: 30 razy
Pomógł: 1671 razy

Poziom ufności przy dużej liczbie obiektów

Post autor: janusz47 »

Z tego wzoru dla danego poziomu i założonej dokładności - obliczamy jak wielka musi być próba danej populacji.
Awatar użytkownika
leg14
Użytkownik
Użytkownik
Posty: 3132
Rejestracja: 5 lis 2014, o 20:24
Płeć: Mężczyzna
Lokalizacja: Radom
Podziękował: 154 razy
Pomógł: 475 razy

Poziom ufności przy dużej liczbie obiektów

Post autor: leg14 »

Janusz przecież widzisz, że autor nei rozumie o co Ci chodzi. Poza tym nie powinno się stosować metod asymptotycznych w przypadku sytuacji odpowiednich dla metod nieparametrycznych.

Przemek, moje rozwiązanie zakłada, że nie znamy liczebności populacji i pomylilo mi sie powinienes rozwazac nierownosc Hoeffding'a w druga strone, tzn:

\(\displaystyle{ \PP(| \overline{X} - \EE(X)| \ge \epsilon) \le 2e^{-2n \epsilon^{2}}}\)

Wyliczasz średnią z póbki o rozmiarze \(\displaystyle{ n}\) (oznaczenie \(\displaystyle{ \overline{X}}\)) i moja metoda Ci mówi:
z poziomem ufności \(\displaystyle{ 2e^{-2n\epsilon^2}}\)
mamy iż procent populacji nieuwzględniony w spisie jest mniejszy niż
\(\displaystyle{ \overline{X} + \epsilon}\). Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.
Przemek81
Użytkownik
Użytkownik
Posty: 5
Rejestracja: 22 lis 2018, o 17:08
Płeć: Mężczyzna
Lokalizacja: Poznań

Poziom ufności przy dużej liczbie obiektów

Post autor: Przemek81 »

Ponownie dzięki za odpowiedzi!

Rozumiem z tego co piszecie coraz mniej, ale postaram się konstruktywnie odnieść do obu odpowiedzi:

janusz47 napisałeś:
Z tego wzoru dla danego poziomu i założonej dokładności - obliczamy jak wielka musi być próba danej populacji.
Wzór wygląda tak: \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) . Nie potrafię zrozumieć jak bez uwzględnienia liczności populacji na której przeprowadzam badanie mogę określić rozmiar próby? Na logikę inny będzie rozmiar próby dla populacji, która liczy \(\displaystyle{ 1 000 000}\) osobników, a inny dla liczącej \(\displaystyle{ 20 000 000}\). A zakładam, że liczbę osobników w populacji znam, znam również poziom ufności, który chcę osiągnąć i akceptowalny dla mnie błąd. Brakuje mi tylko rozmiaru próby, aby dany poziom ufności, przy znanym poziomie błędu i liczności populacji osiągnąć.

leg14 drugi dzień staram się ugryźć to co napisałeś i... nie idzie mi.
Wyliczasz średnią z póbki o rozmiarze n (oznaczenie \(\displaystyle{ \overline{X}}\))
...
Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.
OK, może to oczywiste i po prostu brakuje mi elementarnej wiedzy, ale... jak? Średnią z czego, jeżeli nie mam tutaj żadnej wartości, z której średnią mógłbym policzyć? Mam stan - jest w spisie/nie ma w spisie. A jeżeli moje rozumowanie jest słuszne i nie mam średniej, to i wzlędem czego mam dobierać \(\displaystyle{ \epsilon}\)? I ostatnie pytanie - nawet jeżeli rozważę nierówność w "drugą stronę", to ciągle nie widzę powiązania z liczebnością osobników w populacji, a to trochę ciężko mi pojąć.

Dzięki za dalsze wzkazówki!
ODPOWIEDZ