szukanie zaawansowane
 [ Posty: 14 ] 
Autor Wiadomość
Mężczyzna
PostNapisane: 23 maja 2019, o 00:11 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
W zadaniu rozważany jest model liniowy
Y=X\beta+\varepsilon
,gdzie Y \in \RR^n jest zmienną objaśnianą, X \in \RR^{n \times p} jest macierzą planu, \beta  \in \RR^p wektorem nieznanych współczynników oraz \varepsilon \in \RR^n wektorem nieskorelowanych błędów, czyli \EE \varepsilon=0, Var \epsilon=\sigma^2 Id.

Pokaż, że jeżeli n \ge p oraz rank (X)=n to estymator \beta metodą najmniejszych kwadratów
\overline{ \beta }=arg \min_{\beta}\left| \left| Y-X\beta\right| \right|^2 jest postaci:
\overline{\beta}=(X^TX)^{-1}X^TY

Jak to zrobić? Ile tu wynosi ta norma i jak obliczyć ten gradient?
Uniwersytet Wrocławski Instytut Matematyczny - rekrutacja 2019
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 15:26 
Użytkownik

Posty: 4729
\overline{\beta} = \min_{\beta}\parallel Y - X\beta\parallel^2 = \min_{\beta}[\epsilon^{T}\epsilon] =\\ = \min_{\beta}[(Y- X\beta )^{T}(Y - X\beta)] = \min_{\beta}[ Y^{T}Y -2\beta^{T}X^{T}Y +\beta^{T}X^{T}X \beta].

\frac{\partial (\epsilon^{T} \epsilon)}{ \partial \beta} = -2X^{T}Y +2X^{T}X\beta = 0

X^{T}X\beta = X^{T}Y

\overline{\beta} = (X^{T}X)^{-1}X^{T}Y.
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 21:03 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
Ok, dzięki, ale przynajmniej w trzech miejscach nie rozumiem. Prosiłbym o wyjaśnienie. Po pierwsze Ty jak rozumiem w pierwszej linijce wstawiasz Y=X\beta+\varepsilon czyli powinno być:
\overline{\beta} = \min_{\beta}\parallel \varepsilon \parallel^2. U Ciebie jak rozumiem \varepsilon=\epsilon, tak? No dobra to skąd jest ta równość: \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]? Jaka jest tu norma? Po drugie to jak rozumiem
(Y-X\beta)^T(Y-X\beta)=(Y^T-\beta^TX^T)(Y-X\beta)=Y^TY-Y^TX\beta-\beta^TX^TY+\beta^TX^TX\beta
i na jakiej zasadzie upraszczasz te środkowe wyrazy?
Po drugie to ta funkcja \min_{\beta} to jest takie \beta dla którego wartość tej funkcji jest najmniejsza tak? No dobra, po trzecie jak się liczy pochodną czy tam gradient z macierzy? Tak jak dla zmiennej rzeczywistej, w sensie te reguły różniczkowania?
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 21:45 
Użytkownik

Posty: 4729
\varepsilon = Y - X\beta.

Nic nie upraszczam, środkowe wyrazy sumują się do podwojonego iloczynu.
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 21:47 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
No dobra to akurat wiem, ale skąd jest to:
\parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 22:02 
Użytkownik

Posty: 4729
Jest tylko iloczyn skalarny reszt (błędów )\varepsilon^{T}\varepsilon.
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 22:14 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
Ale co to jest ta norma do kwadratu?
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 22:19 
Użytkownik

Posty: 4729
Sam ją sobie wydumałeś. Gdzie ona występuje?
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 22:23 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
No co to jest to:
\parallel \varepsilon \parallel^2
Co oznaczają te nawiasy?
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 22:28 
Użytkownik

Posty: 4729
Nawisy [] ograniczają minimum.
Góra
Mężczyzna
PostNapisane: 23 maja 2019, o 23:39 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
Ale ja nie mówię o tych nawiasach tylko o tych \parallel \parallel. To są zwykłe nawiasy?
Góra
Mężczyzna
PostNapisane: 24 maja 2019, o 07:25 
Użytkownik

Posty: 4729
Nie wiem o co Ci chodzi?

-- 24 maja 2019, o 17:51 --

Odpowiadając na pytanie, dotyczące obliczenia pochodnej \frac{\partial \varepsilon^{T}\varepsilon}{\partial \beta}.

Pochodna \frac{\partial Y^{t}Y}{ \partial \beta} =0 - bo forma Y^{T}Y nie zależy od \beta.

Z własności pochodnych wiemy, że \frac{ \partial W x}{\partial x} = W'

Stąd wynika, że pochodna -2 \frac{\partial \beta^{T}X^{T}Y}{\partial \beta}=-2 X^{T}Y

Pochodna formy \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta} wymaga wyjaśnienia.

Pochodna z formy kwadratowej \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x.

W naszym przypadku x = \beta, \ \  A = X^{T}X ponadto macierz Grama A= X^{T}X jest macierzą symetryczną, więc ( X^{T}X)^{T} = (X^{T}) (X^{T})^{T}= X^{T}X.

W efekcie \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta} =  2X^{T}X \beta.
Góra
Mężczyzna
PostNapisane: 24 maja 2019, o 23:23 
Użytkownik

Posty: 2303
Lokalizacja: Kraków
No dobra już się skapnąłem, że \parallel \varepsilon \parallel^2 to jest norma euklidesowa i kwadrat tej normy to jest faktycznie iloczyn skalarny.

No, teraz zacząłeś mówić bardziej do sedna. Chyba rozumiem, tylko jak rozumiem ten wzorek:
\frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x
jest do zapamiętania, tak?
Góra
Mężczyzna
PostNapisane: 24 maja 2019, o 23:29 
Użytkownik

Posty: 4729
W matematyce, to trudno coś pamiętać, tym bardziej, gdy pamięć coraz częściej zawodzi.Warto byłoby go wyprowadzić.
Góra
Utwórz nowy temat Odpowiedz w temacie  [ Posty: 14 ] 


 Zobacz podobne tematy
 Tytuł tematu   Autor   Odpowiedzi 
 metoda najmniejszych kwadratów - zadanie 6  jagodkaster  1
 metoda najmniejszych kwadratów  Undre  8
 Metoda najmniejszych kwadratów - zadanie 19  wiatrak33  4
 Metoda najmniejszych kwadratów - zadanie 16  jedrzejak  7
 Metoda najmniejszych kwadratów - zadanie 11  AsiaPipitrasia  8
 
Atom [Regulamin Forum] [Instrukcja LaTeX-a] [Poradnik] [F.A.Q.] [Reklama] [Kontakt]
Copyright (C) Karpatka.pl