Metoda najmniejszych kwadratów
-
- Użytkownik
- Posty: 3394
- Rejestracja: 26 maja 2016, o 01:25
- Płeć: Mężczyzna
- Lokalizacja: Kraków
- Podziękował: 981 razy
- Pomógł: 3 razy
Metoda najmniejszych kwadratów
W zadaniu rozważany jest model liniowy
\(\displaystyle{ Y=X\beta+\varepsilon}\)
,gdzie \(\displaystyle{ Y \in \RR^n}\) jest zmienną objaśnianą, \(\displaystyle{ X \in \RR^{n \times p}}\) jest macierzą planu, \(\displaystyle{ \beta \in \RR^p}\) wektorem nieznanych współczynników oraz \(\displaystyle{ \varepsilon \in \RR^n}\) wektorem nieskorelowanych błędów, czyli \(\displaystyle{ \EE \varepsilon=0}\), \(\displaystyle{ Var \epsilon=\sigma^2 Id}\).
Pokaż, że jeżeli \(\displaystyle{ n \ge p}\) oraz \(\displaystyle{ rank (X)=n}\) to estymator \(\displaystyle{ \beta}\) metodą najmniejszych kwadratów
\(\displaystyle{ \overline{ \beta }=arg \min_{\beta}\left| \left| Y-X\beta\right| \right|^2}\) jest postaci:
\(\displaystyle{ \overline{\beta}=(X^TX)^{-1}X^TY}\)
Jak to zrobić? Ile tu wynosi ta norma i jak obliczyć ten gradient?
\(\displaystyle{ Y=X\beta+\varepsilon}\)
,gdzie \(\displaystyle{ Y \in \RR^n}\) jest zmienną objaśnianą, \(\displaystyle{ X \in \RR^{n \times p}}\) jest macierzą planu, \(\displaystyle{ \beta \in \RR^p}\) wektorem nieznanych współczynników oraz \(\displaystyle{ \varepsilon \in \RR^n}\) wektorem nieskorelowanych błędów, czyli \(\displaystyle{ \EE \varepsilon=0}\), \(\displaystyle{ Var \epsilon=\sigma^2 Id}\).
Pokaż, że jeżeli \(\displaystyle{ n \ge p}\) oraz \(\displaystyle{ rank (X)=n}\) to estymator \(\displaystyle{ \beta}\) metodą najmniejszych kwadratów
\(\displaystyle{ \overline{ \beta }=arg \min_{\beta}\left| \left| Y-X\beta\right| \right|^2}\) jest postaci:
\(\displaystyle{ \overline{\beta}=(X^TX)^{-1}X^TY}\)
Jak to zrobić? Ile tu wynosi ta norma i jak obliczyć ten gradient?
Ostatnio zmieniony 23 maja 2019, o 23:47 przez max123321, łącznie zmieniany 1 raz.
-
- Użytkownik
- Posty: 7917
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1671 razy
Re: Metoda najmniejszych kwadratów
\(\displaystyle{ \overline{\beta} = \min_{\beta}\parallel Y - X\beta\parallel^2 = \min_{\beta}[\epsilon^{T}\epsilon] =\\ = \min_{\beta}[(Y- X\beta )^{T}(Y - X\beta)] = \min_{\beta}[ Y^{T}Y -2\beta^{T}X^{T}Y +\beta^{T}X^{T}X \beta].}\)
\(\displaystyle{ \frac{\partial (\epsilon^{T} \epsilon)}{ \partial \beta} = -2X^{T}Y +2X^{T}X\beta = 0}\)
\(\displaystyle{ X^{T}X\beta = X^{T}Y}\)
\(\displaystyle{ \overline{\beta} = (X^{T}X)^{-1}X^{T}Y.}\)
\(\displaystyle{ \frac{\partial (\epsilon^{T} \epsilon)}{ \partial \beta} = -2X^{T}Y +2X^{T}X\beta = 0}\)
\(\displaystyle{ X^{T}X\beta = X^{T}Y}\)
\(\displaystyle{ \overline{\beta} = (X^{T}X)^{-1}X^{T}Y.}\)
-
- Użytkownik
- Posty: 3394
- Rejestracja: 26 maja 2016, o 01:25
- Płeć: Mężczyzna
- Lokalizacja: Kraków
- Podziękował: 981 razy
- Pomógł: 3 razy
Re: Metoda najmniejszych kwadratów
Ok, dzięki, ale przynajmniej w trzech miejscach nie rozumiem. Prosiłbym o wyjaśnienie. Po pierwsze Ty jak rozumiem w pierwszej linijce wstawiasz \(\displaystyle{ Y=X\beta+\varepsilon}\) czyli powinno być:
\(\displaystyle{ \overline{\beta} = \min_{\beta}\parallel \varepsilon \parallel^2}\). U Ciebie jak rozumiem \(\displaystyle{ \varepsilon=\epsilon}\), tak? No dobra to skąd jest ta równość: \(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)? Jaka jest tu norma? Po drugie to jak rozumiem
\(\displaystyle{ (Y-X\beta)^T(Y-X\beta)=(Y^T-\beta^TX^T)(Y-X\beta)=Y^TY-Y^TX\beta-\beta^TX^TY+\beta^TX^TX\beta}\)
i na jakiej zasadzie upraszczasz te środkowe wyrazy?
Po drugie to ta funkcja \(\displaystyle{ \min_{\beta}}\) to jest takie \(\displaystyle{ \beta}\) dla którego wartość tej funkcji jest najmniejsza tak? No dobra, po trzecie jak się liczy pochodną czy tam gradient z macierzy? Tak jak dla zmiennej rzeczywistej, w sensie te reguły różniczkowania?
\(\displaystyle{ \overline{\beta} = \min_{\beta}\parallel \varepsilon \parallel^2}\). U Ciebie jak rozumiem \(\displaystyle{ \varepsilon=\epsilon}\), tak? No dobra to skąd jest ta równość: \(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)? Jaka jest tu norma? Po drugie to jak rozumiem
\(\displaystyle{ (Y-X\beta)^T(Y-X\beta)=(Y^T-\beta^TX^T)(Y-X\beta)=Y^TY-Y^TX\beta-\beta^TX^TY+\beta^TX^TX\beta}\)
i na jakiej zasadzie upraszczasz te środkowe wyrazy?
Po drugie to ta funkcja \(\displaystyle{ \min_{\beta}}\) to jest takie \(\displaystyle{ \beta}\) dla którego wartość tej funkcji jest najmniejsza tak? No dobra, po trzecie jak się liczy pochodną czy tam gradient z macierzy? Tak jak dla zmiennej rzeczywistej, w sensie te reguły różniczkowania?
-
- Użytkownik
- Posty: 7917
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1671 razy
Re: Metoda najmniejszych kwadratów
\(\displaystyle{ \varepsilon = Y - X\beta.}\)
Nic nie upraszczam, środkowe wyrazy sumują się do podwojonego iloczynu.
Nic nie upraszczam, środkowe wyrazy sumują się do podwojonego iloczynu.
Ostatnio zmieniony 23 maja 2019, o 21:49 przez janusz47, łącznie zmieniany 1 raz.
-
- Użytkownik
- Posty: 3394
- Rejestracja: 26 maja 2016, o 01:25
- Płeć: Mężczyzna
- Lokalizacja: Kraków
- Podziękował: 981 razy
- Pomógł: 3 razy
Re: Metoda najmniejszych kwadratów
No dobra to akurat wiem, ale skąd jest to:
\(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)
\(\displaystyle{ \parallel \varepsilon \parallel^2=[\varepsilon^{T}\varepsilon]}\)
-
- Użytkownik
- Posty: 7917
- Rejestracja: 18 mar 2009, o 16:24
- Płeć: Mężczyzna
- Podziękował: 30 razy
- Pomógł: 1671 razy
Re: Metoda najmniejszych kwadratów
Nie wiem o co Ci chodzi?-- 24 maja 2019, o 17:51 --Odpowiadając na pytanie, dotyczące obliczenia pochodnej \(\displaystyle{ \frac{\partial \varepsilon^{T}\varepsilon}{\partial \beta}.}\)
Pochodna \(\displaystyle{ \frac{\partial Y^{t}Y}{ \partial \beta} =0}\) - bo forma \(\displaystyle{ Y^{T}Y}\) nie zależy od \(\displaystyle{ \beta.}\)
Z własności pochodnych wiemy, że \(\displaystyle{ \frac{ \partial W x}{\partial x} = W'}\)
Stąd wynika, że pochodna \(\displaystyle{ -2 \frac{\partial \beta^{T}X^{T}Y}{\partial \beta}=-2 X^{T}Y}\)
Pochodna formy \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta}}\) wymaga wyjaśnienia.
Pochodna z formy kwadratowej \(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x.}\)
W naszym przypadku \(\displaystyle{ x = \beta, \ \ A = X^{T}X}\) ponadto macierz Grama \(\displaystyle{ A= X^{T}X}\) jest macierzą symetryczną, więc \(\displaystyle{ ( X^{T}X)^{T} = (X^{T}) (X^{T})^{T}= X^{T}X.}\)
W efekcie \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta} = 2X^{T}X \beta.}\)
Pochodna \(\displaystyle{ \frac{\partial Y^{t}Y}{ \partial \beta} =0}\) - bo forma \(\displaystyle{ Y^{T}Y}\) nie zależy od \(\displaystyle{ \beta.}\)
Z własności pochodnych wiemy, że \(\displaystyle{ \frac{ \partial W x}{\partial x} = W'}\)
Stąd wynika, że pochodna \(\displaystyle{ -2 \frac{\partial \beta^{T}X^{T}Y}{\partial \beta}=-2 X^{T}Y}\)
Pochodna formy \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta}}\) wymaga wyjaśnienia.
Pochodna z formy kwadratowej \(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x.}\)
W naszym przypadku \(\displaystyle{ x = \beta, \ \ A = X^{T}X}\) ponadto macierz Grama \(\displaystyle{ A= X^{T}X}\) jest macierzą symetryczną, więc \(\displaystyle{ ( X^{T}X)^{T} = (X^{T}) (X^{T})^{T}= X^{T}X.}\)
W efekcie \(\displaystyle{ \frac{\partial \beta^{T}X^{T}X \beta}{\partial \beta} = 2X^{T}X \beta.}\)
-
- Użytkownik
- Posty: 3394
- Rejestracja: 26 maja 2016, o 01:25
- Płeć: Mężczyzna
- Lokalizacja: Kraków
- Podziękował: 981 razy
- Pomógł: 3 razy
Re: Metoda najmniejszych kwadratów
No dobra już się skapnąłem, że \(\displaystyle{ \parallel \varepsilon \parallel^2}\) to jest norma euklidesowa i kwadrat tej normy to jest faktycznie iloczyn skalarny.
No, teraz zacząłeś mówić bardziej do sedna. Chyba rozumiem, tylko jak rozumiem ten wzorek:
\(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x}\)
jest do zapamiętania, tak?
No, teraz zacząłeś mówić bardziej do sedna. Chyba rozumiem, tylko jak rozumiem ten wzorek:
\(\displaystyle{ \frac{\partial x^{T}A x}{ \partial x} = (A +A^{T})x}\)
jest do zapamiętania, tak?