Metoda najmniejszych kwadratów

max123321 · Post autor: **max123321** » 23 maja 2019, o 00:11

W zadaniu rozważany jest model liniowy
\(\displaystyle{ Y=X\beta+\varepsilon}\)
,gdzie \(\displaystyle{ Y \in \RR^n}\) jest zmienną objaśnianą, \(\displaystyle{ X \in \RR^{n \times p}}\) jest macierzą planu, \(\displaystyle{ \beta \in \RR^p}\) wektorem nieznanych współczynników oraz \(\displaystyle{ \varepsilon \in \RR^n}\) wektorem nieskorelowanych błędów, czyli \(\displaystyle{ \EE \varepsilon=0}\), \(\displaystyle{ Var \epsilon=\sigma^2 Id}\).

Pokaż, że jeżeli \(\displaystyle{ n \ge p}\) oraz \(\displaystyle{ rank (X)=n}\) to estymator \(\displaystyle{ \beta}\) metodą najmniejszych kwadratów
\(\displaystyle{ \overline{ \beta }=arg \min_{\beta}\left| \left| Y-X\beta\right| \right|^2}\) jest postaci:
\(\displaystyle{ \overline{\beta}=(X^TX)^{-1}X^TY}\)

Jak to zrobić? Ile tu wynosi ta norma i jak obliczyć ten gradient?

janusz47 · Post autor: **janusz47** » 23 maja 2019, o 15:26

\(\displaystyle{ \overline{\beta} = \min_{\beta}\parallel Y - X\beta\parallel^2 = \min_{\beta}[\epsilon^{T}\epsilon] =\\ = \min_{\beta}[(Y- X\beta )^{T}(Y - X\beta)] = \min_{\beta}[ Y^{T}Y -2\beta^{T}X^{T}Y +\beta^{T}X^{T}X \beta].}\)

\(\displaystyle{ \frac{\partial (\epsilon^{T} \epsilon)}{ \partial \beta} = -2X^{T}Y +2X^{T}X\beta = 0}\)

\(\displaystyle{ X^{T}X\beta = X^{T}Y}\)

\(\displaystyle{ \overline{\beta} = (X^{T}X)^{-1}X^{T}Y.}\)

max123321 · Post autor: **max123321** » 23 maja 2019, o 21:03

Ok, dzięki, ale przynajmniej w trzech miejscach nie rozumiem. Prosiłbym o wyjaśnienie. Po pierwsze Ty jak rozumiem w pierwszej linijce wstawiasz \(\displaystyle{ Y=X\beta+\varepsilon}\) czyli powinno być:
\(\displaystyle{ \overline{\beta} = \min_{\beta}\parallel \varepsilon \parallel^2}\). U Ciebie jak rozumiem \(\displaystyle{ \varepsilon=\epsilon}\), tak? No dobra to skąd jest ta równość: \(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)? Jaka jest tu norma? Po drugie to jak rozumiem
\(\displaystyle{ (Y-X\beta)^T(Y-X\beta)=(Y^T-\beta^TX^T)(Y-X\beta)=Y^TY-Y^TX\beta-\beta^TX^TY+\beta^TX^TX\beta}\)
i na jakiej zasadzie upraszczasz te środkowe wyrazy?
Po drugie to ta funkcja \(\displaystyle{ \min_{\beta}}\) to jest takie \(\displaystyle{ \beta}\) dla którego wartość tej funkcji jest najmniejsza tak? No dobra, po trzecie jak się liczy pochodną czy tam gradient z macierzy? Tak jak dla zmiennej rzeczywistej, w sensie te reguły różniczkowania?

janusz47 · Post autor: **janusz47** » 23 maja 2019, o 21:45

\(\displaystyle{ \varepsilon = Y - X\beta.}\)

Nic nie upraszczam, środkowe wyrazy sumują się do podwojonego iloczynu.

max123321 · Post autor: **max123321** » 23 maja 2019, o 21:47

No dobra to akurat wiem, ale skąd jest to:
\(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)

janusz47 · Post autor: **janusz47** » 23 maja 2019, o 22:02

Jest tylko iloczyn skalarny reszt (błędów )\(\displaystyle{ \varepsilon^{T}\varepsilon.}\)

max123321 · Post autor: **max123321** » 23 maja 2019, o 22:14

Ale co to jest ta norma do kwadratu?

janusz47 · Post autor: **janusz47** » 23 maja 2019, o 22:19

Sam ją sobie wydumałeś. Gdzie ona występuje?

max123321 · Post autor: **max123321** » 23 maja 2019, o 22:23

No co to jest to:
\(\displaystyle{ \parallel \varepsilon \parallel^2}\)
Co oznaczają te nawiasy?

janusz47 · Post autor: **janusz47** » 23 maja 2019, o 22:28

Nawisy [] ograniczają minimum.

max123321 · Post autor: **max123321** » 23 maja 2019, o 23:39

Ale ja nie mówię o tych nawiasach tylko o tych \(\displaystyle{ \parallel \parallel}\). To są zwykłe nawiasy?

janusz47 · Post autor: **janusz47** » 24 maja 2019, o 07:25

Nie wiem o co Ci chodzi?-- 24 maja 2019, o 17:51 --Odpowiadając na pytanie, dotyczące obliczenia pochodnej \(\displaystyle{ \frac{\partial \varepsilon^{T}\varepsilon}{\partial \beta}.}\)

Pochodna \(\displaystyle{ \frac{\partial Y^{t}Y}{ \partial \beta} =0}\) - bo forma \(\displaystyle{ Y^{T}Y}\) nie zależy od \(\displaystyle{ \beta.}\)

Z własności pochodnych wiemy, że \(\displaystyle{ \frac{ \partial W x}{\partial x} = W'}\)

Stąd wynika, że pochodna \(\displaystyle{ -2 \frac{\partial \beta^{T}X^{T}Y}{\partial \beta}=-2 X^{T}Y}\)

Pochodna formy \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta}}\) wymaga wyjaśnienia.

Pochodna z formy kwadratowej \(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x.}\)

W naszym przypadku \(\displaystyle{ x = \beta, \ \ A = X^{T}X}\) ponadto macierz Grama \(\displaystyle{ A= X^{T}X}\) jest macierzą symetryczną, więc \(\displaystyle{ ( X^{T}X)^{T} = (X^{T}) (X^{T})^{T}= X^{T}X.}\)

W efekcie \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta} = 2X^{T}X \beta.}\)

max123321 · Post autor: **max123321** » 24 maja 2019, o 23:23

No dobra już się skapnąłem, że \(\displaystyle{ \parallel \varepsilon \parallel^2}\) to jest norma euklidesowa i kwadrat tej normy to jest faktycznie iloczyn skalarny.

No, teraz zacząłeś mówić bardziej do sedna. Chyba rozumiem, tylko jak rozumiem ten wzorek:
\(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x}\)
jest do zapamiętania, tak?

janusz47 · Post autor: **janusz47** » 24 maja 2019, o 23:29

W matematyce, to trudno coś pamiętać, tym bardziej, gdy pamięć coraz częściej zawodzi.Warto byłoby go wyprowadzić.

Matematyka.pl