Siedzi człowiek i patrzy, jakie są wydawane numerki w szatni. Widzi: 1, 13, 5, 21, 14, 8, 9, 20, 4, 17. Zakładając, że numerki wydawane są całkowicie losowo, mam oszacować ile jest ich prawdopodobnie w tej szatni i podać błąd.
Nie licząc szacuję, że będzie to 24 plus minus 3, ale jak zmniejszyć błąd i to matematycznie uzasadnić?
Oszac. liczebności zbioru, dane: kilka losowych elementów
- Sylwek
- Użytkownik
- Posty: 2716
- Rejestracja: 21 maja 2007, o 14:24
- Płeć: Mężczyzna
- Lokalizacja: Warszawa
- Podziękował: 160 razy
- Pomógł: 657 razy
Oszac. liczebności zbioru, dane: kilka losowych elementów
Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie? I czy wiemy a priori, że numerki są indeksowane kolejnymi liczbami naturalnymi od 1 do \(\displaystyle{ n}\) dla pewnego \(\displaystyle{ n \in \NN}\)? Czy uwzględniamy losowanie z powtórzeniami?
Ogólnie kwestia wygląda tak... Przedział ufności może być kiepską metodą, bo tak na prawdę jeśli założymy, że każdy numerek z szatni jest tak samo prawdopodobny, to interesuje nas tylko największy z wylosowanych numerków (dlaczego?).
Najbardziej prawdopodobną liczbą numerków jest oczywiście \(\displaystyle{ 21}\), tzn. jeśli przez \(\displaystyle{ A_k}\) oznaczymy zdarzenie, że w szatni jest \(\displaystyle{ k}\) numerków, przez \(\displaystyle{ B}\) zdarzenie, że maksimum z wylosowanych 10 liczb (niech będzie bez powtórzeń) wynosi \(\displaystyle{ 21}\), to \(\displaystyle{ \PP(A_k|B)}\) jest największe dla \(\displaystyle{ k=21}\). Jeśli ktoś nie czuje się intuicyjnie przekonany, to
To jedno podejście do sprawy. Możesz powiedzieć, że prawdopodobnie jest ich \(\displaystyle{ 21}\), obliczyć ręcznie \(\displaystyle{ \PP(A_{21}|B)}\) (ze wzoru Bayesa, będzie oczywiście konieczność zsumowania nieskończonego szeregu, czego ze względu na Twój wiek nie robię) i powiedzieć, że prawdopodobieństwo błędu wynosi \(\displaystyle{ 1-\PP(A_{21}|B)}\). Ewentualnie konstruujesz tzw. przedział ufności postaci \(\displaystyle{ \langle 21, 21+t \rangle}\) dla pewnego \(\displaystyle{ t \ge 0}\) i podobnie szacujesz błąd odejmując kilka prawdopodobieństw).
Z drugiej strony mogło chodzić o wartość oczekiwaną i jakiś przedział ją zawierający. A wartość oczekiwaną można w sprytny sposób wyznaczyć tak - jeśli wybieramy z odcinka \(\displaystyle{ \langle a, b \rangle}\) losowo (zgodnie z rozkładem jednostajnym) \(\displaystyle{ n}\) punktów, to wartość oczekiwana długości każdego z \(\displaystyle{ n+1}\) odcinków, na które zostanie podzielony pierwotny odcinek, jest równa i wynosi \(\displaystyle{ \frac{1}{n+1}(b-a)}\). Można to dowieść sprytnym, lecz zaawansowanym twierdzeniem, długimi obliczeniami, ale można też powiedzieć, że wystarczy nawinąć cały odcinek na szpulkę w ten sposób, że punkty \(\displaystyle{ a}\) i \(\displaystyle{ b}\) pokrywają się na tej szpulce i stwierdzić, że "zapominamy" w ten sposób, który odcinek jest który i przez to stają się nieodróżnialne. Można to sformalizować, czego czynić nie będę. W naszym zadaniu rolę odcinka \(\displaystyle{ \langle a, b \rangle}\) może grać odcinek \(\displaystyle{ \langle 1, k \rangle}\), a \(\displaystyle{ 21}\) jest ostatnim wylosowanym, więc mniej więcej mamy \(\displaystyle{ \frac{10}{11} \cdot (k-1) = 21-1 \iff k=23}\). Co prawda wynik jest ładny, ale trzeba pamiętać, że w naszym zadaniu nie możemy losować jednostajnie z odcinka \(\displaystyle{ \langle 1, k \rangle}\), gdyż możemy losować tylko wartości całkowite, zatem powyższy wynik jest co najwyżej wynikiem przybliżonym (w dodatku losujemy bez powtórzeń). W tym przypadku to tylko luźne dywagacje, a nie formalne obliczenia, ponieważ nie sądzę, że o to Cię pytali.
Ogólnie kwestia wygląda tak... Przedział ufności może być kiepską metodą, bo tak na prawdę jeśli założymy, że każdy numerek z szatni jest tak samo prawdopodobny, to interesuje nas tylko największy z wylosowanych numerków (dlaczego?).
Najbardziej prawdopodobną liczbą numerków jest oczywiście \(\displaystyle{ 21}\), tzn. jeśli przez \(\displaystyle{ A_k}\) oznaczymy zdarzenie, że w szatni jest \(\displaystyle{ k}\) numerków, przez \(\displaystyle{ B}\) zdarzenie, że maksimum z wylosowanych 10 liczb (niech będzie bez powtórzeń) wynosi \(\displaystyle{ 21}\), to \(\displaystyle{ \PP(A_k|B)}\) jest największe dla \(\displaystyle{ k=21}\). Jeśli ktoś nie czuje się intuicyjnie przekonany, to
\(\displaystyle{ \PP(A_k|B)=\frac{\PP(A_k \cap B)}{\PP(B)}=\frac{\frac{\binom{21}{10}-\binom{20}{10}}{\binom{k}{10}}}{\PP(B)}}\),
a ponieważ \(\displaystyle{ \binom{k}{10}}\) jest funkcją rosnącą dla \(\displaystyle{ k \ge 10}\) (proste), to mamy co chcieliśmy.To jedno podejście do sprawy. Możesz powiedzieć, że prawdopodobnie jest ich \(\displaystyle{ 21}\), obliczyć ręcznie \(\displaystyle{ \PP(A_{21}|B)}\) (ze wzoru Bayesa, będzie oczywiście konieczność zsumowania nieskończonego szeregu, czego ze względu na Twój wiek nie robię) i powiedzieć, że prawdopodobieństwo błędu wynosi \(\displaystyle{ 1-\PP(A_{21}|B)}\). Ewentualnie konstruujesz tzw. przedział ufności postaci \(\displaystyle{ \langle 21, 21+t \rangle}\) dla pewnego \(\displaystyle{ t \ge 0}\) i podobnie szacujesz błąd odejmując kilka prawdopodobieństw).
Z drugiej strony mogło chodzić o wartość oczekiwaną i jakiś przedział ją zawierający. A wartość oczekiwaną można w sprytny sposób wyznaczyć tak - jeśli wybieramy z odcinka \(\displaystyle{ \langle a, b \rangle}\) losowo (zgodnie z rozkładem jednostajnym) \(\displaystyle{ n}\) punktów, to wartość oczekiwana długości każdego z \(\displaystyle{ n+1}\) odcinków, na które zostanie podzielony pierwotny odcinek, jest równa i wynosi \(\displaystyle{ \frac{1}{n+1}(b-a)}\). Można to dowieść sprytnym, lecz zaawansowanym twierdzeniem, długimi obliczeniami, ale można też powiedzieć, że wystarczy nawinąć cały odcinek na szpulkę w ten sposób, że punkty \(\displaystyle{ a}\) i \(\displaystyle{ b}\) pokrywają się na tej szpulce i stwierdzić, że "zapominamy" w ten sposób, który odcinek jest który i przez to stają się nieodróżnialne. Można to sformalizować, czego czynić nie będę. W naszym zadaniu rolę odcinka \(\displaystyle{ \langle a, b \rangle}\) może grać odcinek \(\displaystyle{ \langle 1, k \rangle}\), a \(\displaystyle{ 21}\) jest ostatnim wylosowanym, więc mniej więcej mamy \(\displaystyle{ \frac{10}{11} \cdot (k-1) = 21-1 \iff k=23}\). Co prawda wynik jest ładny, ale trzeba pamiętać, że w naszym zadaniu nie możemy losować jednostajnie z odcinka \(\displaystyle{ \langle 1, k \rangle}\), gdyż możemy losować tylko wartości całkowite, zatem powyższy wynik jest co najwyżej wynikiem przybliżonym (w dodatku losujemy bez powtórzeń). W tym przypadku to tylko luźne dywagacje, a nie formalne obliczenia, ponieważ nie sądzę, że o to Cię pytali.
Oszac. liczebności zbioru, dane: kilka losowych elementów
Od nauczyciela fizyki w liceum.Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie?
Wszystkie założenia są dobre.
Ale czy wiedząc, że 1 jest najmniejszą możliwą wartością, zostało wylosowane i nie może być niczego przed tą wartością, nie powinniśmy dzielić osi na \(\displaystyle{ n}\) odcinków zamiast na \(\displaystyle{ n + 1}\)? Wynik się nie zmienia, bo wychodzi 23,(2), co trzeba zaokrąglić, ale czy nie jest to słuszniejsza metoda?
- Sylwek
- Użytkownik
- Posty: 2716
- Rejestracja: 21 maja 2007, o 14:24
- Płeć: Mężczyzna
- Lokalizacja: Warszawa
- Podziękował: 160 razy
- Pomógł: 657 razy
Oszac. liczebności zbioru, dane: kilka losowych elementów
Tylko kwestia wygląda tak, że równie dobrze zamiast powyższego zestawu mogłeś z takim samym prawdopodobieństwem wylosować zestaw \(\displaystyle{ \lbrace 12, 13, \ldots, 20, 21 \rbrace}\), wówczas pojawia się pokusa to "odrzucenia" odcinka \(\displaystyle{ \langle 1, 12 \rangle}\) (bo jest "za długi w porównaniu do innych") i wynik wyjdzie inny. To jeden z takich problemów, w których fajnie jest samemu przeprowadzić kilka empirycznych doświadczeń, często pomaga to w zrozumieniu problemu.Ataeghane pisze:Od nauczyciela fizyki w liceum.Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie?
Wszystkie założenia są dobre.
Ale czy wiedząc, że 1 jest najmniejszą możliwą wartością, zostało wylosowane i nie może być niczego przed tą wartością, nie powinniśmy dzielić osi na \(\displaystyle{ n}\) odcinków zamiast na \(\displaystyle{ n + 1}\)? Wynik się nie zmienia, bo wychodzi 23,(2), co trzeba zaokrąglić, ale czy nie jest to słuszniejsza metoda?
Ważne jest więc przede wszystkim, jakie założenia uczyniliśmy na początku zadania, a były one takie, że każdy zestaw 10 numerków z szatni był tak samo prawdopodobny do wylosowania. Przypominam też, że wartość średnia (ważne, abyś rozumiał różnicę, że nie jest to najbardziej prawdopodobna wartość - to tylko wartość oczekiwana) równa (w przybliżeniu) 23 wyszła jako przybliżenie modelu z wybieraniem punktów z odcinka w sposób ciągły, a nie w sposób dyskretny jak powyżej, więc wszystko jest "bardzo delikatnym oszustwem". To znaczy zarówno Twój, jak i mój model jest obarczony pewnym błędem. Jak mówiłem, nie będę wchodził w szczegóły, bo i tak dokładna \(\displaystyle{ \EE X}\) wyjdzie blisko 23.