rzeczywisty poziom błędu klasyfikatora

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
gregorio99
Użytkownik
Użytkownik
Posty: 9
Rejestracja: 10 sie 2009, o 23:52
Płeć: Mężczyzna
Podziękował: 4 razy

rzeczywisty poziom błędu klasyfikatora

Post autor: gregorio99 »

Ogólnie mój problem dotyczy błędu klasyfikacji.
Z pewnej książki można przeczytać iż:

Rzeczywisty poziom błędu klasyfikatora d jest równy
\(\displaystyle{ e(d) = P(d(X) \neq Y)}\) nie jestem w stanie zrozumieć tego zapisu.

Wiemy, że interesuje nas problem predykcji etykiety Y na podstawie wektora cech X.

Czyli:
Y=(kwadracik, trójkącik)
X = wektor obserwacji

Chodzi o zaklasyfikowanie kwadracików w jakimś obszarze wykresu 2D, a trójkącików w innym.
W rezultacie dostajemy jakąś prostą oddzielające te obserwacje od siebie i tak:
\(\displaystyle{ d(x)=\begin{cases} kwadracik, jezeli (jakies-równanie-np-liniowe) > 0\\ trojkacik, w-innym-przypadku \end{cases}}\)
A więc mamy do czynienia z regułą klasyfikacyjną \(\displaystyle{ d: X \rightarrow Y}\) Czyli gdy obserwujemy nowy wektor X, to prognozą etykiety Y jest d(X).
Mam nadzieję, że to wszystko brzmi jasno, pytanie jest czy ktoś jest mi w stanie wytłumaczyć własnymi słowami co to jest ten błąd:
\(\displaystyle{ e(d) = P(d(X) \neq Y)}\) ?
Jak go się interpretuje?
bstq
Użytkownik
Użytkownik
Posty: 319
Rejestracja: 7 lut 2008, o 12:45
Płeć: Mężczyzna
Lokalizacja: Warszawa
Pomógł: 67 razy

rzeczywisty poziom błędu klasyfikatora

Post autor: bstq »

\(\displaystyle{ X=\left(X_{1},\ldots,X_{n}\right)}\) - obserwacje (próba losowa)

\(\displaystyle{ Y=\left(Y_{1},\ldots,Y_{n}\right)}\)- klasy

właściwie obserwacje wyglądają tak: \(\displaystyle{ \left(X_{i},Y_{i}\right)_{i=1}^{n}}\)

\(\displaystyle{ e(d)=P(d(X)\neq Y)=\frac{1}{n}\cdot\#\left\{ \left(X_{i},Y_{i}\right):d\left(X_{i}\right)\neq Y_{i}\right\} =\frac{\text{liczba blednych klasyfikowan przez }d}{\text{liczba wszystkich klasyfikowan}}}\)

jesli estymowany blad nalezy do przedzialu:
[0,50%] - słaba klasyfikacja - rownie dobrze moglibysmy rzucac moneta
(50%,80%) - "dobra" klasyfikacja...
[80%,100%] - "zła" klasyfikacja, klasyfikator sie "przeuczyl", zbyt dobrze dopasowal sie do proby uczacej \(\displaystyle{ \left(X_{i},Y_{i}\right)_{i=1}^{n}}\)
ODPOWIEDZ