Rozkłady danych jakościowych (Bernoulliego i Poissona)

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
Nobody1111
Użytkownik
Użytkownik
Posty: 4
Rejestracja: 6 paź 2006, o 18:54
Płeć: Mężczyzna
Lokalizacja: Polska

Rozkłady danych jakościowych (Bernoulliego i Poissona)

Post autor: Nobody1111 »

Czytam sobie skrypt "Analiza danych jakościowych" Andrzeja Dąbrowskiego i utknąłem na początku. Oto mój problem.

Niech \(\displaystyle{ X}\) będzie zmienną losową o wartościach \(\displaystyle{ x_1,...,x_J}\). Prawdopodobieństwo, że \(\displaystyle{ X=x_i}\) oznaczamy \(\displaystyle{ p_i}\). Dane wynikające z obserwacji w n-elementowej próbce, powstającej z niezależnego losowania wartości cechy \(\displaystyle{ X}\) możemy zapisać w tablicy kontyngencyjnej:
\(\displaystyle{ n_1}\) \(\displaystyle{ n_2}\) \(\displaystyle{ n_3}\) ... \(\displaystyle{ n_J}\)
\(\displaystyle{ p_1}\) \(\displaystyle{ p_2}\) \(\displaystyle{ p_3}\) ... \(\displaystyle{ p_J}\)
gdzie \(\displaystyle{ p_1 +... + p_J =1}\)

Parametr \(\displaystyle{ n_i}\) określa ile razy zaobserwowano w próbce wartość \(\displaystyle{ x_i}\). Rozkładem związanym z tą tablicą jest rozkład zmiennej losowej \(\displaystyle{ N_i}\) określającej, ile wyników cechy \(\displaystyle{ X}\) na poziomie \(\displaystyle{ x_i}\) wystąpi w próbce (rozkład ten zależy od rozkładu zmiennej \(\displaystyle{ X}\)). Dotąd jest wszystko jasne. Problem mam odtąd:
Różne sposoby uzyskania informacji w próbce mają wpływ na rozkład zmiennych \(\displaystyle{ N_i}\).

1. Rozkład dwumianowy (Bernoulliego) B(p)
Powtarzamy n-krotnie eksperyment, polegający na wykonaniu \(\displaystyle{ n_0}\) niezależnych powtórzeń zmiennej o dwóch poziomach: "sukces" i "porażka", gdzie prawdopodobieństwo sukcesu wynosi \(\displaystyle{ p}\). Zmienna \(\displaystyle{ X}\) mierzy liczbę sukcesów w \(\displaystyle{ n_0}\) powtórzeniach, zaś \(\displaystyle{ n_i}\) jest liczbą eksperymentów w której wystąpiło \(\displaystyle{ x_i}\) sukcesów.
(Mój komentarz - z tego co rozumiem to analizujemy zmienne \(\displaystyle{ X_1, ..., X_n}\), gdzie \(\displaystyle{ X_i}\) ma rozkład Bernoulliego B(n,p)). Wówczas:
\(\displaystyle{ P(N_1=n_1, N_2 = n_2, ... , N_J = n_J ) = \prod_{i=1}^{J} (n_0 * x_i * p^{x_i} * (1-p)^{n_0 - x_i} )^{n_i}}\)
Pytanie: skąd taki wzór??? Nie mogę tego dostać, a już nie mam pojęcia skąd w nawiasie wzięło się \(\displaystyle{ n_0 * x_i}\). Czy ktoś byłby wyjść od rozkładu Bernoulliego i uzyskać ten wynik?

2. Rozkład Poissona z parametrem k. Wówczas
\(\displaystyle{ P(N_1 = n_1, ..., N_J = n_J) = \prod_{i=1}^{J} exp(-k * n_i) * (k^ {x_i} / x_i ! ) ^ {n_i}}\)
Tutaj otrzymałem też inny wynik, choć nieco podobny. Według mnie w powyższym wyniku nie uwzględnia się tego, w których spośród n doświadczeń wypadł wynik \(\displaystyle{ x_1}\), w których wynik \(\displaystyle{ x_2}\), itd. Czyli wg mnie powyższe wyrażenie powinniśmy przemnożyć przez \(\displaystyle{ C(n,n1) * C(n-n1,n2) * ... * C(n-n1-...-nJ-1 , nJ)}\)

Co robię źle lub co rozumuję źle? Z tych rozkładów autor korzysta dalej w książce, więc raczej nie ma możliwości, żeby gdzieś tu był błąd.
ODPOWIEDZ