Badanie trafności prognozowanego wyniku

pitgot · Post autor: **pitgot** » 21 lut 2018, o 23:25

Witam serdecznie Głowię się nad następującym problemem: Załóżmy, że mamy pewną liczbę zawodników, którzy zajmują kolejne miejsca bez możliwości remisu (ex-aequo). Moim zadaniem jest przewidzieć tę ostateczną klasyfikację i ocenić procentowo skuteczność swojej prognozy (patrząc tylko na różnice w końcowym rankingu a tym co sam na początku obstawiałem).
Chyba najlepszym (ale dalej nie mam pewności czy na pewno optymalnym) pomysłem na jaki udało mi się wpaść jest porównanie wszystkich par zawodników (na zasadzie "każdy z każdym") pod względem tego, który z rozpatrywanej dwójki zajął wyższe (albo niższe) miejsce i sprawdzeniu zgodności ze swoim prognozowaniem. W przypadku zgodności otrzymuję jeden punkt, a w przeciwnym wypadku zero punktów. Wynikiem byłby oczywiście stosunek liczby zdobytych punktów do ich liczby możliwych do zdobycia (czyli dokładnie tyle, na ile sposobów można wybrać dwóch zawodników), co już dalej można łatwo wyrazić procentowo.
W pierwszym swoim podejściu wyznaczyłem wzór ogólny (ze względu na parzystość liczby zawodników musiałem rozpatrzeć dwa przypadki) na jakby największą możliwą liczbę "punktów odchylenia" od całkowitej zgodności prognozy z rzeczywistym rankingiem sumując wartości bezwzględne różnic liczb (ze wszystkich par) oznaczających zajęte przez danego zawodnika miejsce (w klasyfikacji ostatecznej i tej, którą ja sam przewidywałem). Jest to - w moim odczuciu (mogę się mylić) - trochę gorszy sposób niż ten poprzedni, lecz nakierował mnie on na to, żeby trochę bardziej zagłębić się w poszukiwanie jakichś dobrych statystycznych narzędzi do tego celu.
Po długich poszukiwaniach natknąłem się na coś takiego jak WSPÓŁCZYNNIK KORELACJI SPEARMANA:
... spearmana/
Zauważyłem w nim pewne podobieństwo z opisanym wyżej sposobem, a mianowicie obliczanie tych różnic, o których wspomniałem. Wydaje mi się, że można go do tego problemu wykorzystać, ale nie mam całkowitej pewności. Wyniki, dla pewnych konkretnych wartości jakie sobie przyjąłem, wydają się być sensowne i stosunkowo zbliżone do tych z dwóch poprzednich moich podejść, a procentową trafność swojej prognozy też można by łatwo wtedy ustalić uwzględniając obliczoną wartość takiego współczynnika oraz długość przedziału od -1 (najgorsza trafność) do 1 (najlepsza trafność). To wszystko do czego udało mi się dojść. Moje pomysły się już skończyły i mam wrażenie, że już na nic lepszego nie wpadnę. Czy dałby ktoś radę rozwiać moje wątpliwości i rozstrzygnąć, który z opisanych przeze mnie sposobów oddaje najlepiej trafność omawianej prognozy oraz ewentualnie wskazać różnice w ich dokładności i skuteczności? A może jest jeszcze jakiś inny lepszy sposób? Zależy mi po prostu na poznaniu tego najlepszego. Z góry dziękuję już teraz, chociażby nawet za samo przeczytanie tych moich długich wywodów. Pozdrawiam i liczę na Waszą pomoc, Robert.