Dobór parametrów do modelu- metody Bayesjańskie

trelek2 · Post autor: **trelek2** » 5 sty 2013, o 01:07

Proszę o pomoc ludzi z jakimkolwiek doświadczeniem w statystyce w rozwiązaniu następującego zadania:

Mam dane co do ilości krów, które zostały uśpione w związku z chorobą w różnych gospodarstwach. (dane to ilość krów, oraz ilość uśpionych krów w określonym czasie)

Oprócz tego napisałem model epidemiologiczny z parametrami (\(\displaystyle{ p_{1}}\), \(\displaystyle{ p_{2}}\), \(\displaystyle{ p_{3}}\)) które muszę dobrać tak, by model generował podobne dane jak te które posiadam.

\(\displaystyle{ p_{1}}\) jest prawdopodobieństwem dla każdej krowy każdego dnia, czy zostanie zainfekowana z zewnątrz

\(\displaystyle{ p_{2}}\) jest niejako siłą infekcji - jest to prawdopodobieństwo przejścia choroby z krowy na krowę. Swoją drogą tutaj też nie jestem pewien jak to zdefiniować - w zależności od ilości zarażonych krów w stadzie całkowite prawdopodobieństwo zainfekowania każdej zdrowej krowy powinno w jakiś sposób się zmieniać. W tej chwili jeszcze zostawiłem to jako stała, czyli niezależnie od ilości, jeśli choć jedna krowa jest chora, prawdopodobieństwo dla wszystkich innych jest jednakowe. Ma to trochę sens, ponieważ z danych wynika, że % ilość krów zarażonych jest bardzo mała i choroba rozprzestrzenia się bardzo wolno.

\(\displaystyle{ p_{3}}\) - gdy usypiamy krowy kupujemy w ich miejsce nowe, p3 to prawdopodobieństwo, że nowa krowa będzie chora już przy zakupie. Jest tak dlatego, że "badamy krowy" raz na określoną ilość dni…

Plan jest taki żeby dla różnych "próbnych" \(\displaystyle{ p_{1}}\), \(\displaystyle{ p_{2}}\), \(\displaystyle{ p_{3}}\) puszczać symulacje i jakoś określić takie parametry, które najlepiej pasują do podanych danych. Moje pytanie jak dokładnie to zrobić w jakiś mało skomplikowany sposób, ponieważ nigdy nie uczyłem się statystyki na poważnie.

Problem polega na tym, że mam całą dystrybucję "prawdziwych" wyników. Czy dla każdej próbnej kombinacji powinienem robić wiele symulacji, tak żeby też mieć dystrybucje wygenerowanych danych. Jeśli tak, jak porównywać zbieżność takich dystrybucji?

Jak zmieniać wartości \(\displaystyle{ p_{1}}\),\(\displaystyle{ p_{2}}\),\(\displaystyle{ p_{3}}\), żeby generować coraz lepsze dane? pojedynczyo? na chybił trafił?

PS. znalazłem wiele wskazówek, że powinienem stosować statystykę bayesjańską, ale nie znalazłem nigdzie prostego opisu jak to zrobić w praktyce.