Twierdzenie Bayesa a dane tabelaryczne

Definicja klasyczna. Prawdopodobieństwo warunkowe i całkowite. Zmienne losowe i ich parametry. Niezależność. Prawa wielkich liczb oraz centralne twierdzenia graniczne i ich zastosowania.
Draken
Użytkownik
Użytkownik
Posty: 11
Rejestracja: 23 lip 2010, o 18:07
Płeć: Mężczyzna
Lokalizacja: Wrocław

Twierdzenie Bayesa a dane tabelaryczne

Post autor: Draken »

Witam serdecznie!
Jestem programistą, pracującym dla firmy zajmującej się tworzeniem rozwiązań z zakresu Business Intelligence i analizy danych.
Ostatnio pracujemy nad systemem ekspertowym, który będzie wyciągał prawdopodobieństwa z danych tabelarycznych. Problem polega na tym, że nie mogę w żadnej książce znaleźć przykładów, odpowiadających sytuacji przed którą stoję. Prosiłbym o pomoc i podpowiedź. Chodzi o sposób liczenia prawdopodobieństw z tabel WYLICZAJĄCYCH poszczególne przypadki (a nie stanowiących podstumowanie np. 2 zmiennych).

Przykładowe dane wyglądają następująco - są one zbiorem pojedynczych przypadków zdarzeń:
\(\displaystyle{ \begin{tabular}{ l c r }
Linia lotnicza (L) & Dodatkowe opłaty (Op) & czas spóźnienia lotu (T) \\
Linia1 & 20 EUR & 20 min \\
Linia2 & 5 EUR & 5 min \\
Linia3 & 15 EUR & 10 min \\
Linia1 & 15 EUR & 10min \\
Linia3 & 5 EUR & 5 min \\
Linia2 & 20 EUR & 20 min \\
\end{tabular}}\)



Przykładowe pytania i sposób obliczania(rozumowania), który według mnie jest prawidłowy (nie skracałem ułamków dla lepszej czytelności w stosunku do wierszy tabeli):

1.
\(\displaystyle{ P(L = Linia1 \cap Op= 20EUR) = \frac{1}{6}}\)
Spośród WSZYSTKICH wierszy wybierz te, które mają L = Linia1 i Op = 20EUR i policz ilośc tych wierszy do całości

2.
\(\displaystyle{ P(L = Linia1 | T = 20min) = \frac{ P(T = 20min | L = Linia1) P(L = Linia1) }{ P(T = 20min) } =
\frac{ \frac{1}{2} * \frac{2}{6} }{ \frac{3}{6} }}\)


Z twierdzenia Bayesa:
Licznik:
a) weź wszystkie wiersze zawierające L = Linia1 (2 z 6).
b) weź wszystkie wiersze z punktu a dla których T = 20 min (1 z 2)

Mianownik:
Weź wszystkie wiersze, dla których T = 20 min (3 z 6).


3. Jak będzie wyglądać rozumowanie i wybór wierszy np. dla
\(\displaystyle{ P(T = 20min | L = Linia1 \wedge Op=10 EUR)}\) . Czy tak jak poprzednio - tj. ze wszystkich wierszy wybieramy L = Linia1 i Op= 10EUR itd.?

To może się wydawać śmieszne, ale we wszystkich podręcznikach i kursach są zwsze wcześniej przygotowane tabele z prawodopodobieństwami, albo tabele z prawdopodobieństwami brzegowymi dla poszczególnych wartości. Program komputerowy nie będzie specjalnie tworzyć tabeli brzegowej, tylko będzie operował na danych podstawowych, stąd moje pytanie.

Z góry dziękuję i pozdrawiam serdecznie.

-- 19 wrz 2013, o 15:24 --

Anyone can help?-- 19 wrz 2013, o 15:25 --Anyone can help?
ODPOWIEDZ