Oszac. liczebności zbioru, dane: kilka losowych elementów

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Ataeghane
Użytkownik
Użytkownik
Posty: 2
Rejestracja: 18 wrz 2012, o 21:03
Płeć: Mężczyzna
Lokalizacja: Polska

Oszac. liczebności zbioru, dane: kilka losowych elementów

Post autor: Ataeghane »

Siedzi człowiek i patrzy, jakie są wydawane numerki w szatni. Widzi: 1, 13, 5, 21, 14, 8, 9, 20, 4, 17. Zakładając, że numerki wydawane są całkowicie losowo, mam oszacować ile jest ich prawdopodobnie w tej szatni i podać błąd.

Nie licząc szacuję, że będzie to 24 plus minus 3, ale jak zmniejszyć błąd i to matematycznie uzasadnić?
Awatar użytkownika
scyth
Użytkownik
Użytkownik
Posty: 6392
Rejestracja: 23 lip 2007, o 15:26
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 3 razy
Pomógł: 1087 razy

Oszac. liczebności zbioru, dane: kilka losowych elementów

Post autor: scyth »

edit: Sylwek wie lepiej \(\displaystyle{ \downarrow}\)
Awatar użytkownika
Sylwek
Użytkownik
Użytkownik
Posty: 2716
Rejestracja: 21 maja 2007, o 14:24
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 160 razy
Pomógł: 657 razy

Oszac. liczebności zbioru, dane: kilka losowych elementów

Post autor: Sylwek »

Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie? I czy wiemy a priori, że numerki są indeksowane kolejnymi liczbami naturalnymi od 1 do \(\displaystyle{ n}\) dla pewnego \(\displaystyle{ n \in \NN}\)? Czy uwzględniamy losowanie z powtórzeniami?

Ogólnie kwestia wygląda tak... Przedział ufności może być kiepską metodą, bo tak na prawdę jeśli założymy, że każdy numerek z szatni jest tak samo prawdopodobny, to interesuje nas tylko największy z wylosowanych numerków (dlaczego?).

Najbardziej prawdopodobną liczbą numerków jest oczywiście \(\displaystyle{ 21}\), tzn. jeśli przez \(\displaystyle{ A_k}\) oznaczymy zdarzenie, że w szatni jest \(\displaystyle{ k}\) numerków, przez \(\displaystyle{ B}\) zdarzenie, że maksimum z wylosowanych 10 liczb (niech będzie bez powtórzeń) wynosi \(\displaystyle{ 21}\), to \(\displaystyle{ \PP(A_k|B)}\) jest największe dla \(\displaystyle{ k=21}\). Jeśli ktoś nie czuje się intuicyjnie przekonany, to
\(\displaystyle{ \PP(A_k|B)=\frac{\PP(A_k \cap B)}{\PP(B)}=\frac{\frac{\binom{21}{10}-\binom{20}{10}}{\binom{k}{10}}}{\PP(B)}}\),
a ponieważ \(\displaystyle{ \binom{k}{10}}\) jest funkcją rosnącą dla \(\displaystyle{ k \ge 10}\) (proste), to mamy co chcieliśmy.

To jedno podejście do sprawy. Możesz powiedzieć, że prawdopodobnie jest ich \(\displaystyle{ 21}\), obliczyć ręcznie \(\displaystyle{ \PP(A_{21}|B)}\) (ze wzoru Bayesa, będzie oczywiście konieczność zsumowania nieskończonego szeregu, czego ze względu na Twój wiek nie robię) i powiedzieć, że prawdopodobieństwo błędu wynosi \(\displaystyle{ 1-\PP(A_{21}|B)}\). Ewentualnie konstruujesz tzw. przedział ufności postaci \(\displaystyle{ \langle 21, 21+t \rangle}\) dla pewnego \(\displaystyle{ t \ge 0}\) i podobnie szacujesz błąd odejmując kilka prawdopodobieństw).

Z drugiej strony mogło chodzić o wartość oczekiwaną i jakiś przedział ją zawierający. A wartość oczekiwaną można w sprytny sposób wyznaczyć tak - jeśli wybieramy z odcinka \(\displaystyle{ \langle a, b \rangle}\) losowo (zgodnie z rozkładem jednostajnym) \(\displaystyle{ n}\) punktów, to wartość oczekiwana długości każdego z \(\displaystyle{ n+1}\) odcinków, na które zostanie podzielony pierwotny odcinek, jest równa i wynosi \(\displaystyle{ \frac{1}{n+1}(b-a)}\). Można to dowieść sprytnym, lecz zaawansowanym twierdzeniem, długimi obliczeniami, ale można też powiedzieć, że wystarczy nawinąć cały odcinek na szpulkę w ten sposób, że punkty \(\displaystyle{ a}\) i \(\displaystyle{ b}\) pokrywają się na tej szpulce i stwierdzić, że "zapominamy" w ten sposób, który odcinek jest który i przez to stają się nieodróżnialne. Można to sformalizować, czego czynić nie będę. W naszym zadaniu rolę odcinka \(\displaystyle{ \langle a, b \rangle}\) może grać odcinek \(\displaystyle{ \langle 1, k \rangle}\), a \(\displaystyle{ 21}\) jest ostatnim wylosowanym, więc mniej więcej mamy \(\displaystyle{ \frac{10}{11} \cdot (k-1) = 21-1 \iff k=23}\). Co prawda wynik jest ładny, ale trzeba pamiętać, że w naszym zadaniu nie możemy losować jednostajnie z odcinka \(\displaystyle{ \langle 1, k \rangle}\), gdyż możemy losować tylko wartości całkowite, zatem powyższy wynik jest co najwyżej wynikiem przybliżonym (w dodatku losujemy bez powtórzeń). W tym przypadku to tylko luźne dywagacje, a nie formalne obliczenia, ponieważ nie sądzę, że o to Cię pytali.
Ataeghane
Użytkownik
Użytkownik
Posty: 2
Rejestracja: 18 wrz 2012, o 21:03
Płeć: Mężczyzna
Lokalizacja: Polska

Oszac. liczebności zbioru, dane: kilka losowych elementów

Post autor: Ataeghane »

Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie?
Od nauczyciela fizyki w liceum.

Wszystkie założenia są dobre.

Ale czy wiedząc, że 1 jest najmniejszą możliwą wartością, zostało wylosowane i nie może być niczego przed tą wartością, nie powinniśmy dzielić osi na \(\displaystyle{ n}\) odcinków zamiast na \(\displaystyle{ n + 1}\)? Wynik się nie zmienia, bo wychodzi 23,(2), co trzeba zaokrąglić, ale czy nie jest to słuszniejsza metoda?
Awatar użytkownika
Sylwek
Użytkownik
Użytkownik
Posty: 2716
Rejestracja: 21 maja 2007, o 14:24
Płeć: Mężczyzna
Lokalizacja: Warszawa
Podziękował: 160 razy
Pomógł: 657 razy

Oszac. liczebności zbioru, dane: kilka losowych elementów

Post autor: Sylwek »

Ataeghane pisze:
Ponieważ podejść może być kilka i o różnym stopniu zaawansowania, zapytam, skąd masz to zadanie?
Od nauczyciela fizyki w liceum.

Wszystkie założenia są dobre.

Ale czy wiedząc, że 1 jest najmniejszą możliwą wartością, zostało wylosowane i nie może być niczego przed tą wartością, nie powinniśmy dzielić osi na \(\displaystyle{ n}\) odcinków zamiast na \(\displaystyle{ n + 1}\)? Wynik się nie zmienia, bo wychodzi 23,(2), co trzeba zaokrąglić, ale czy nie jest to słuszniejsza metoda?
Tylko kwestia wygląda tak, że równie dobrze zamiast powyższego zestawu mogłeś z takim samym prawdopodobieństwem wylosować zestaw \(\displaystyle{ \lbrace 12, 13, \ldots, 20, 21 \rbrace}\), wówczas pojawia się pokusa to "odrzucenia" odcinka \(\displaystyle{ \langle 1, 12 \rangle}\) (bo jest "za długi w porównaniu do innych") i wynik wyjdzie inny. To jeden z takich problemów, w których fajnie jest samemu przeprowadzić kilka empirycznych doświadczeń, często pomaga to w zrozumieniu problemu.

Ważne jest więc przede wszystkim, jakie założenia uczyniliśmy na początku zadania, a były one takie, że każdy zestaw 10 numerków z szatni był tak samo prawdopodobny do wylosowania. Przypominam też, że wartość średnia (ważne, abyś rozumiał różnicę, że nie jest to najbardziej prawdopodobna wartość - to tylko wartość oczekiwana) równa (w przybliżeniu) 23 wyszła jako przybliżenie modelu z wybieraniem punktów z odcinka w sposób ciągły, a nie w sposób dyskretny jak powyżej, więc wszystko jest "bardzo delikatnym oszustwem". To znaczy zarówno Twój, jak i mój model jest obarczony pewnym błędem. Jak mówiłem, nie będę wchodził w szczegóły, bo i tak dokładna \(\displaystyle{ \EE X}\) wyjdzie blisko 23.
ODPOWIEDZ