Poziom ufności przy dużej liczbie obiektów
Poziom ufności przy dużej liczbie obiektów
Cześć,
Próbuję w ramach projektu, który realizuję rozwiązać pewien problem, co do którego niestety brakuje mi warsztatu pojęciowego, aby odpowiednio poszukać informacji o sposobie jego rozwiązania.
Problem jest następujący:
Mam listę, stanowiącą - w założeniu - kompletny spis \(\displaystyle{ n}\) osobników danej populacji. Potrzebuję z zachowaniem konkretnego poziomu ufności \(\displaystyle{ u}\) stwierdzić, czy lista ta jest kompletna, poprzez sprawdzenie, czy znajduje się na niej \(\displaystyle{ k}\) losowo wybranych osobników z tejże populacji. Zakładam, że losowość doboru osobników nie ma (lub nie powinna mieć) znaczenia. Jak wyliczyć parametr \(\displaystyle{ k,}\) aby osiągnąć poziom ufności \(\displaystyle{ u}\)?
Przykład: Załóżmy, że populacja Polski liczy \(\displaystyle{ 10\ 000\ 000}\) mieszkańców i każdy z nich ma unikalny numer telefonu. Posiadam też książkę telefoniczną z - teoretycznie - listą wszystkich mieszkańców Polski. Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć \(\displaystyle{ 90/95/99\%}\) pewności, że posiadana książka telefoniczna jest kompletna?
Będę bardzo wdzięczny za podpowiedź jak ugryźć ten problem. Przebiłem się w miarę moich skromnych możliwości przez kilka pojęć typu "estymacja metodą największej wiarygodności", "wyznaczanie liczebności próby losowej potrzebną do osiągnięcia zakładanej dokładności", "najbardziej prawdopodobna liczba sukcesów", "rozkład t-Studenta" i kilka innych, natomiast albo nie potrafię ich dopasować do mojego problemu albo szukam nie tam gdzie trzeba.
Jak się do tego zabrać? Jest jakaś metoda, która została stworzona do problemów tego typu? Ewentualnie kilka metod, które trzeba złozyć w całość?
Z góry dziękuję za wszelkie sugestie i podpowiedzi!
Pozdrawiam,
Przemek
Próbuję w ramach projektu, który realizuję rozwiązać pewien problem, co do którego niestety brakuje mi warsztatu pojęciowego, aby odpowiednio poszukać informacji o sposobie jego rozwiązania.
Problem jest następujący:
Mam listę, stanowiącą - w założeniu - kompletny spis \(\displaystyle{ n}\) osobników danej populacji. Potrzebuję z zachowaniem konkretnego poziomu ufności \(\displaystyle{ u}\) stwierdzić, czy lista ta jest kompletna, poprzez sprawdzenie, czy znajduje się na niej \(\displaystyle{ k}\) losowo wybranych osobników z tejże populacji. Zakładam, że losowość doboru osobników nie ma (lub nie powinna mieć) znaczenia. Jak wyliczyć parametr \(\displaystyle{ k,}\) aby osiągnąć poziom ufności \(\displaystyle{ u}\)?
Przykład: Załóżmy, że populacja Polski liczy \(\displaystyle{ 10\ 000\ 000}\) mieszkańców i każdy z nich ma unikalny numer telefonu. Posiadam też książkę telefoniczną z - teoretycznie - listą wszystkich mieszkańców Polski. Ile osób muszę sprawdzić na ulicach całej Polski, aby mieć \(\displaystyle{ 90/95/99\%}\) pewności, że posiadana książka telefoniczna jest kompletna?
Będę bardzo wdzięczny za podpowiedź jak ugryźć ten problem. Przebiłem się w miarę moich skromnych możliwości przez kilka pojęć typu "estymacja metodą największej wiarygodności", "wyznaczanie liczebności próby losowej potrzebną do osiągnięcia zakładanej dokładności", "najbardziej prawdopodobna liczba sukcesów", "rozkład t-Studenta" i kilka innych, natomiast albo nie potrafię ich dopasować do mojego problemu albo szukam nie tam gdzie trzeba.
Jak się do tego zabrać? Jest jakaś metoda, która została stworzona do problemów tego typu? Ewentualnie kilka metod, które trzeba złozyć w całość?
Z góry dziękuję za wszelkie sugestie i podpowiedzi!
Pozdrawiam,
Przemek
Ostatnio zmieniony 22 lis 2018, o 19:13 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
Poziom ufności przy dużej liczbie obiektów
Hej!
Dzięki za podjęcie tematu!
Trochę błądzę po omacku, natomiast jeżeli dobrze zrozumiałem teorię, to \(\displaystyle{ d}\) jest równy połowie długości całego przedziału ufności. Jeżeli założę, że akceptowalny dla mnie przedział ufności mieści się od \(\displaystyle{ 95\%}\) do \(\displaystyle{ 99\%}\) to mój \(\displaystyle{ d}\) wyniesie \(\displaystyle{ 2\%}\).
Dzięki za podjęcie tematu!
Trochę błądzę po omacku, natomiast jeżeli dobrze zrozumiałem teorię, to \(\displaystyle{ d}\) jest równy połowie długości całego przedziału ufności. Jeżeli założę, że akceptowalny dla mnie przedział ufności mieści się od \(\displaystyle{ 95\%}\) do \(\displaystyle{ 99\%}\) to mój \(\displaystyle{ d}\) wyniesie \(\displaystyle{ 2\%}\).
Ostatnio zmieniony 25 lis 2018, o 22:54 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
Powód: Używaj LaTeXa do wszystkich wyrażeń matematycznych.
- leg14
- Użytkownik
- Posty: 3132
- Rejestracja: 5 lis 2014, o 20:24
- Płeć: Mężczyzna
- Lokalizacja: Radom
- Podziękował: 154 razy
- Pomógł: 475 razy
Re: Poziom ufności przy dużej liczbie obiektów
janusz47, czym jest to zet algfa?
Moja propozycja:
mamy zmienną pokrśloną na populacji - \(\displaystyle{ X(w)}\)
\(\displaystyle{ X(w) =1 \Leftrightarrow}\) osobnik \(\displaystyle{ w}\) nie znajduje się w spisie (liście),
\(\displaystyle{ X(w) = 0}\) w przeciwnym przypadku.
Interesuje nas oszacowanie \(\displaystyle{ \EE(X)}\) (jaka część populacji nie znajduje się w spisie.
Stosujemy nierówność Hoeffding'a (
\(\displaystyle{ \PP(\overline{X} - \EE(X) \ge \epsilon) \le e^{-2n\epsilon^2}}\)
-- 25 lis 2018, o 23:51 --
ten sposób możesz oszacować ilu osobników nie ma w spisie i dopasować liczebność próby tak by osiągnąć zadowalający Cię rezultat.
Stwierdzenie
Moja propozycja:
mamy zmienną pokrśloną na populacji - \(\displaystyle{ X(w)}\)
\(\displaystyle{ X(w) =1 \Leftrightarrow}\) osobnik \(\displaystyle{ w}\) nie znajduje się w spisie (liście),
\(\displaystyle{ X(w) = 0}\) w przeciwnym przypadku.
Interesuje nas oszacowanie \(\displaystyle{ \EE(X)}\) (jaka część populacji nie znajduje się w spisie.
Stosujemy nierówność Hoeffding'a (
\(\displaystyle{ \PP(\overline{X} - \EE(X) \ge \epsilon) \le e^{-2n\epsilon^2}}\)
-- 25 lis 2018, o 23:51 --
ten sposób możesz oszacować ilu osobników nie ma w spisie i dopasować liczebność próby tak by osiągnąć zadowalający Cię rezultat.
Stwierdzenie
Nie ma sensu, dpóki nie sprecyzujesz co oznacza posiadanie \(\displaystyle{ 95%}\) pewnościIle osób muszę sprawdzić na ulicach całej Polski, aby mieć 90/95/99\% pewności, że posiadana książka telefoniczna jest kompletna?
Poziom ufności przy dużej liczbie obiektów
Dzięki za odpowiedzi leg14 i janusz47!
Skupiłem się na nierówności Hoeffding'a, chociaż przyznaję, że nie do końca rozumiem jej działanie. W wyniku dalszej lektury wyczytałem, że po rozwiązaniu i przekształceniu tej nierówności otrzymam:
\(\displaystyle{ n \le \frac{log( \frac{2}{ \alpha } )}{2 \epsilon^2}}\)
i teraz jeżeli dobrze to rozumiem, to \(\displaystyle{ n}\) to ilość moich prób, \(\displaystyle{ \alpha}\) to mój poziom ufności, czy też dokładnie błąd jaki jestem w stanie zaakceptować (tutaj np. 5%). A czym w takim razie jest \(\displaystyle{ \epsilon}\) ?
Na Wikipedii widziałem, że \(\displaystyle{ \epsilon}\) wyrażony był jako \(\displaystyle{ t}\), wraz z komentarzem, że potrzebuję przynajmniej \(\displaystyle{ n}\) prób, aby osiągnąć poziom pewności \(\displaystyle{ 1- \alpha}\) dla przedziału \(\displaystyle{ E[\overline{X}] \pm t}\). Mam w związku z tym wątpliwość, jak w moim przypadu policzyć \(\displaystyle{ E[\overline{X}]}\), skoro - jeżeli dobrze rozumiem - mój \(\displaystyle{ E[\overline{X}] = 1}\) ponieważ nie mam możliwości policzenia średniej wartości na określonej populacji, jeżeli wyrażona jest ona wyłącznie stanem jest/nie jest. Jeżeli miałbym jakąś wartość średnią i mógł poprzez \(\displaystyle{ t}\) określić poziom ufności, to miałoby to sens. Póki co jestem ciągle w kropce.
I gdzie jest tu związek z licznością populacji?
Dzięki za dalsze wskazówki!
janusz47 Czy mógłbym Cię prosić o rozwinięcie Twojej propozycji? nie wiem niestety czym jest zet alpha. Dziękuję!
Skupiłem się na nierówności Hoeffding'a, chociaż przyznaję, że nie do końca rozumiem jej działanie. W wyniku dalszej lektury wyczytałem, że po rozwiązaniu i przekształceniu tej nierówności otrzymam:
\(\displaystyle{ n \le \frac{log( \frac{2}{ \alpha } )}{2 \epsilon^2}}\)
i teraz jeżeli dobrze to rozumiem, to \(\displaystyle{ n}\) to ilość moich prób, \(\displaystyle{ \alpha}\) to mój poziom ufności, czy też dokładnie błąd jaki jestem w stanie zaakceptować (tutaj np. 5%). A czym w takim razie jest \(\displaystyle{ \epsilon}\) ?
Na Wikipedii widziałem, że \(\displaystyle{ \epsilon}\) wyrażony był jako \(\displaystyle{ t}\), wraz z komentarzem, że potrzebuję przynajmniej \(\displaystyle{ n}\) prób, aby osiągnąć poziom pewności \(\displaystyle{ 1- \alpha}\) dla przedziału \(\displaystyle{ E[\overline{X}] \pm t}\). Mam w związku z tym wątpliwość, jak w moim przypadu policzyć \(\displaystyle{ E[\overline{X}]}\), skoro - jeżeli dobrze rozumiem - mój \(\displaystyle{ E[\overline{X}] = 1}\) ponieważ nie mam możliwości policzenia średniej wartości na określonej populacji, jeżeli wyrażona jest ona wyłącznie stanem jest/nie jest. Jeżeli miałbym jakąś wartość średnią i mógł poprzez \(\displaystyle{ t}\) określić poziom ufności, to miałoby to sens. Póki co jestem ciągle w kropce.
I gdzie jest tu związek z licznością populacji?
Dzięki za dalsze wskazówki!
janusz47 Czy mógłbym Cię prosić o rozwinięcie Twojej propozycji? nie wiem niestety czym jest zet alpha. Dziękuję!
-
- Użytkownik
- Posty: 7918
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1671 razy
Re: Poziom ufności przy dużej liczbie obiektów
\(\displaystyle{ z_{\alpha}}\) jest kwantylem rzędu \(\displaystyle{ \alpha}\) standaryzowanego rozkładu normalnego.
Na przykład dla poziomu ufności \(\displaystyle{ 0,95}\) z tablic dystrybuanty rozkładu \(\displaystyle{ N(0,1)}\) lub programu komputerowego na przykład \(\displaystyle{ R ,\ \ \phi( z_{0.025}) = 0,975, \ \ z_{0,025}\approx 1,96.}\)
Program R
Na przykład dla poziomu ufności \(\displaystyle{ 0,95}\) z tablic dystrybuanty rozkładu \(\displaystyle{ N(0,1)}\) lub programu komputerowego na przykład \(\displaystyle{ R ,\ \ \phi( z_{0.025}) = 0,975, \ \ z_{0,025}\approx 1,96.}\)
Program R
Kod: Zaznacz cały
> z0.025 = qnorm(0.975)
> z0.025
[1] 1.959964
Poziom ufności przy dużej liczbie obiektów
Dzięki za wyjaśnienie. Nie będę udawał, że wiem co to, ale z tablic potrafię korzystać, a samo pojęcie postaram się mimo wszystko zrozumieć.
Nie daje mi spokoju natomiast jedna rzecz, gdzie w Twojej propozycji tj. \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) odniesienie do liczności populacji? Coś najwyraźniej pomijam w zrozumieniu jak tego użyć.
Nie daje mi spokoju natomiast jedna rzecz, gdzie w Twojej propozycji tj. \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) odniesienie do liczności populacji? Coś najwyraźniej pomijam w zrozumieniu jak tego użyć.
- leg14
- Użytkownik
- Posty: 3132
- Rejestracja: 5 lis 2014, o 20:24
- Płeć: Mężczyzna
- Lokalizacja: Radom
- Podziękował: 154 razy
- Pomógł: 475 razy
Poziom ufności przy dużej liczbie obiektów
Janusz przecież widzisz, że autor nei rozumie o co Ci chodzi. Poza tym nie powinno się stosować metod asymptotycznych w przypadku sytuacji odpowiednich dla metod nieparametrycznych.
Przemek, moje rozwiązanie zakłada, że nie znamy liczebności populacji i pomylilo mi sie powinienes rozwazac nierownosc Hoeffding'a w druga strone, tzn:
\(\displaystyle{ \PP(| \overline{X} - \EE(X)| \ge \epsilon) \le 2e^{-2n \epsilon^{2}}}\)
Wyliczasz średnią z póbki o rozmiarze \(\displaystyle{ n}\) (oznaczenie \(\displaystyle{ \overline{X}}\)) i moja metoda Ci mówi:
z poziomem ufności \(\displaystyle{ 2e^{-2n\epsilon^2}}\)
mamy iż procent populacji nieuwzględniony w spisie jest mniejszy niż
\(\displaystyle{ \overline{X} + \epsilon}\). Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.
Przemek, moje rozwiązanie zakłada, że nie znamy liczebności populacji i pomylilo mi sie powinienes rozwazac nierownosc Hoeffding'a w druga strone, tzn:
\(\displaystyle{ \PP(| \overline{X} - \EE(X)| \ge \epsilon) \le 2e^{-2n \epsilon^{2}}}\)
Wyliczasz średnią z póbki o rozmiarze \(\displaystyle{ n}\) (oznaczenie \(\displaystyle{ \overline{X}}\)) i moja metoda Ci mówi:
z poziomem ufności \(\displaystyle{ 2e^{-2n\epsilon^2}}\)
mamy iż procent populacji nieuwzględniony w spisie jest mniejszy niż
\(\displaystyle{ \overline{X} + \epsilon}\). Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.
Poziom ufności przy dużej liczbie obiektów
Ponownie dzięki za odpowiedzi!
Rozumiem z tego co piszecie coraz mniej, ale postaram się konstruktywnie odnieść do obu odpowiedzi:
janusz47 napisałeś:
leg14 drugi dzień staram się ugryźć to co napisałeś i... nie idzie mi.
Dzięki za dalsze wzkazówki!
Rozumiem z tego co piszecie coraz mniej, ale postaram się konstruktywnie odnieść do obu odpowiedzi:
janusz47 napisałeś:
Wzór wygląda tak: \(\displaystyle{ \frac{z^2_{\alpha}}{d^2}}\) . Nie potrafię zrozumieć jak bez uwzględnienia liczności populacji na której przeprowadzam badanie mogę określić rozmiar próby? Na logikę inny będzie rozmiar próby dla populacji, która liczy \(\displaystyle{ 1 000 000}\) osobników, a inny dla liczącej \(\displaystyle{ 20 000 000}\). A zakładam, że liczbę osobników w populacji znam, znam również poziom ufności, który chcę osiągnąć i akceptowalny dla mnie błąd. Brakuje mi tylko rozmiaru próby, aby dany poziom ufności, przy znanym poziomie błędu i liczności populacji osiągnąć.Z tego wzoru dla danego poziomu i założonej dokładności - obliczamy jak wielka musi być próba danej populacji.
leg14 drugi dzień staram się ugryźć to co napisałeś i... nie idzie mi.
OK, może to oczywiste i po prostu brakuje mi elementarnej wiedzy, ale... jak? Średnią z czego, jeżeli nie mam tutaj żadnej wartości, z której średnią mógłbym policzyć? Mam stan - jest w spisie/nie ma w spisie. A jeżeli moje rozumowanie jest słuszne i nie mam średniej, to i wzlędem czego mam dobierać \(\displaystyle{ \epsilon}\)? I ostatnie pytanie - nawet jeżeli rozważę nierówność w "drugą stronę", to ciągle nie widzę powiązania z liczebnością osobników w populacji, a to trochę ciężko mi pojąć.Wyliczasz średnią z póbki o rozmiarze n (oznaczenie \(\displaystyle{ \overline{X}}\))
...
Teraz dobeirasz epsilon i wielkość próbki tak, by osiągnąć interesujący Cię poziom błędu.
Dzięki za dalsze wzkazówki!