Automaty do cukierków i optymalna strategia
Automaty do cukierków i optymalna strategia
Mamy trzy maszyny z cukierkami, D (dobrą), Z (złą) i L (losową). D zawsze daje cukierka, jeśli wrzucimy 1 zł. Z nigdy nie daje cukierka po wrzuceniu 1 zł. L daje cukierka z prawd. jedna druga po wrzuceniu 1 zł. Chcemy cukiera i podchodzimy do maszyn, ale nie wiemy, która jest która. Wybieramy losowo jedną maszynę i jeśli w n próbach nie uzyskamy cukiera, zmieniany maszynę. Jeśli w k próbach nie uzyskamy cukierka z drugiej maszyny, zmieniamy na tę, która została. Maksymalnie za cukierka możemy zapłacić n + k + 1 zł. Jaka jest wartosć oczekiwana kosztu cukierka przy takiej strategii? Czy strategia n = k = 1 jest optymalna, tzn. jej wartość oczekiwana jest najmniejsza?