Korelacja i regresja liniowa - nietypowe zadanie

Procesy stochastyczne. Sposoby racjonalizowania wielkich ilości informacji. Matematyka w naukach społecznych.
osob
Użytkownik
Użytkownik
Posty: 65
Rejestracja: 10 sty 2010, o 17:50
Płeć: Mężczyzna
Lokalizacja: Wrocław
Podziękował: 10 razy
Pomógł: 2 razy

Korelacja i regresja liniowa - nietypowe zadanie

Post autor: osob »

Witam,

Proszę o pomoc w rozważaniach nt. następującego zadania:
Ustalić siłę i rodzaj związku korelacyjnego pomiędzy ceną karnetu (X) oraz liczbą kilometrów tras narciarskich (Y).
Ustalić teoretyczną cenę karnetu w ośrodku narciarskim w którym jest 400 km tras, oraz podać interpretację
współczynnika kierunkowego oszacowanej prostej regresji.
Pomiar długości tras w analizowanych ośrodkach i cen karnetów dał następujące wyniki
\(\displaystyle{ (1)y_{śr} = 200km}\) - średnia liczba km trasy narciarskiej w badanych obserwacjach

\(\displaystyle{ (2)s_{y} = 110km}\) - odchylenie standardowe dla długości trasy w badanych obserwacjach

\(\displaystyle{ (3)cov(x,y) = 8910}\) - kowariancja

\(\displaystyle{ (4)x_{1} + x_{2} = ... + x_{25} = 2500 zł}\) - suma wszystkich badanych cen karnetu

\(\displaystyle{ (5)x^{2} _{1} + x^{2} _{2} + ... + x^{2} _{25} = 452 500}\) - suma kwadratów wszystkich badanych cen karnetu

Mam problem z obliczeniem współczynnika korelacji.

Moje rozważania:

Zadanie sugeruje ustalenie zmiennych - cena karnetu jako zmienna niezależna X (objaśniająca) oraz długość trasy narciarskiej, jako zmienna zależna Y (objaśniana). Jeśli dobrze rozumiem, to można powiedzieć, że badamy jak zmienia się długość trasy w zależności od ceny karnetu. Spodziewamy się, że wyższa cena jest związana z dłuższą trasą.

Pierwsza część zadania dotyczy korelacji, jedyny wzór (z podanych na wykładzie), który daje jakiekolwiek szanse na rozwiązanie to

\(\displaystyle{ r = \frac{cov(x,y)}{ s_{x}\cdot s_{y}} }\)

Mamy podaną kowariancję i odchylenie dla długości tras. Brakuje odchylenia dla ceny karnetu.

Wzór na odchylenie podany na wykładzie to:
\(\displaystyle{ s= \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n} (x_{i} - x_{śr})^{2}} }\)

O ile średnią możemy policzyć z (4):

\(\displaystyle{ x_{śr} = \frac{2500}{25} = 100zł }\)

To nie znamy cen pojedynczych karnetów.

Podejrzewam, że nie podali sumy kwadratów ot tak sobie, więc jedyne na co po jakimś czasie wpadłem to rozwinięcie wzoru skróconego mnożenia - w końcu:

\(\displaystyle{ s_{x} = \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n} (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n}(x_{i}^{2} - 2x_{i}x_{śr} + x_{śr}^{2})} }\)

W zadaniu mamy podaną zarówno sumę kwadratów, jak i sumę pojedynczych cen karnetów, dlatego wydaje mi się, że można zapisać tak (o ile te duże znaki sumy działają tak jak myślę - stałe można wyrzucić przed znak sumy?)

\(\displaystyle{ s_{x} =\sqrt{\frac{1}{n}\sum_{i=1}^{n} \cdot (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 100^{2} )} }\)

I tu niestety wychodzi mi liczba ujemna pod pierwiastkiem, co na naszym poziomie (nie korzystamy z liczb zespolonych) świadczy o błędzie w rozumowaniu.

Proszę o pomoc - wykazanie błędu u mnie lub wskazanie lepszej/prostszej metody obliczeń, bo zapewne taka istnieje. Może nie znam jakiegoś wzoru, w którym podana suma kwadratów cech jest możliwa do wykorzystania? Po co podali sumę kwadratów? Czy faktycznie chodzi tutaj o skorzystanie ze wzoru skróconego mnożenia?


*********************************************************


Reszta zadania jest dla mnie zrozumiała, tylko ten współczynnik korelacji nie daje mi spokoju. Ewentualnie jeśli ktoś może to proszę sprawdzić wyniki:

\(\displaystyle{ a_{x} =0,736}\) - współczynnik kierunkowy regresji - wzrost długości trasy o 1km jest związany ze wzrostem ceny karnetu o około 74gr

\(\displaystyle{ b_{x} = - 47,2}\) - wyraz wolny funkcji regresji

\(\displaystyle{ x(400) = 247,2}\) - teoretyczna cena karnetu dla trasy o długości 400km to około 247,2zł.
Ostatnio zmieniony 29 paź 2021, o 16:41 przez Jan Kraszewski, łącznie zmieniany 1 raz.
Powód: Symbol mnożenia to \cdot.
Awatar użytkownika
kmarciniak1
Użytkownik
Użytkownik
Posty: 809
Rejestracja: 14 lis 2014, o 19:37
Płeć: Mężczyzna
Podziękował: 48 razy
Pomógł: 183 razy

Re: Korelacja i regresja liniowa - nietypowe zadanie

Post autor: kmarciniak1 »

osob pisze: 29 paź 2021, o 14:59

\(\displaystyle{ s_{x} =\sqrt{\frac{1}{n}\sum_{i=1}^{n} \cdot (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 100^{2} )} }\)

I tu niestety wychodzi mi liczba ujemna pod pierwiastkiem, co na naszym poziomie (nie korzystamy z liczb zespolonych) świadczy o błędzie w rozumowaniu.
zapomniałeś ostatni fragment tej sumy pod pierwiastkiem pomnożyć przez \(\displaystyle{ 25}\) bo \(\displaystyle{ x _{śr} }\) też jest pod znakiem sumy czyli powinno być
\(\displaystyle{ s_{x} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 25\cdot100^{2} )} }\)


a co do tych dalszych wyników które dajesz do sprawdzenia to jak policzyłeś współczynniki w regresji liniowej skoro tam właśnie potrzeba użyć odchylenia standardowego zmiennej \(\displaystyle{ x}\)?
osob
Użytkownik
Użytkownik
Posty: 65
Rejestracja: 10 sty 2010, o 17:50
Płeć: Mężczyzna
Lokalizacja: Wrocław
Podziękował: 10 razy
Pomógł: 2 razy

Re: Korelacja i regresja liniowa - nietypowe zadanie

Post autor: osob »

kmarciniak1 pisze: 29 paź 2021, o 17:39
osob pisze: 29 paź 2021, o 14:59

\(\displaystyle{ s_{x} =\sqrt{\frac{1}{n}\sum_{i=1}^{n} \cdot (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 100^{2} )} }\)

I tu niestety wychodzi mi liczba ujemna pod pierwiastkiem, co na naszym poziomie (nie korzystamy z liczb zespolonych) świadczy o błędzie w rozumowaniu.
zapomniałeś ostatni fragment tej sumy pod pierwiastkiem pomnożyć przez \(\displaystyle{ 25}\) bo \(\displaystyle{ x _{śr} }\) też jest pod znakiem sumy czyli powinno być
\(\displaystyle{ s_{x} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 25\cdot100^{2} )} }\)


a co do tych dalszych wyników które dajesz do sprawdzenia to jak policzyłeś współczynniki w regresji liniowej skoro tam właśnie potrzeba użyć odchylenia standardowego zmiennej \(\displaystyle{ x}\)?
Dziękuję.

O to tak działa tak suma? Wydawało mi się, że skoro średnia nie ma oznaczenia " \(\displaystyle{ x_{śr,i}}\) ", czyli jakby "i-ta średnia", to jest to najzwyklejsza stała, którą wyrzuca się przed znak sumy. Ale faktycznie, przecież we wzorze pierwotnym (gdyby go rozpisać "na piechotę") średnia występuje również 25-krotnie, podobnie jak zmienne wartości cechy więc należałoby to jakoś odzwierciedlić,. Teraz by się zgadzało.

Jeśli chodzi o drugą część - pomyślałem, że skoro mam podane \(\displaystyle{ s_{y} = 110 km }\), mogę obliczyć regresję liniową x względem y. Wtedy:

\(\displaystyle{ a_{x} = \frac{cov(x,y)}{ s_{y}^{2} } }\)

wtedy

\(\displaystyle{ b_{x} = x_{śr} - a_{x}* y_{śr} }\).

Wszystkie dane do tych obliczeń są podane oprócz średniej x, którą łatwo wyliczyć, zauważając n=25 i sumę x-ów = 2500.

Skoro zapytałeś, to rozumiem, że jest to raczej błąd i należałoby wykonać te obliczenia nie dla x względem y, ale y względem x? Teraz będzie to już proste, ale możesz powiedzieć, która część treści zadania odpowiada za to, którą wersję (x względem y, czy y względem x) należy obliczyć?
Awatar użytkownika
kmarciniak1
Użytkownik
Użytkownik
Posty: 809
Rejestracja: 14 lis 2014, o 19:37
Płeć: Mężczyzna
Podziękował: 48 razy
Pomógł: 183 razy

Re: Korelacja i regresja liniowa - nietypowe zadanie

Post autor: kmarciniak1 »

osob pisze: 29 paź 2021, o 18:24

Skoro zapytałeś, to rozumiem, że jest to raczej błąd i należałoby wykonać te obliczenia nie dla x względem y, ale y względem x? Teraz będzie to już proste, ale możesz powiedzieć, która część treści zadania odpowiada za to, którą wersję (x względem y, czy y względem x) należy obliczyć?
W swoim pierwotnym poście napisałeś między innymi takie zdanie. 'Zadanie sugeruje ustalenie zmiennych - cena karnetu jako zmienna niezależna X (objaśniająca) oraz długość trasy narciarskiej, jako zmienna zależna Y (objaśniana).' tak więc należy konsekwentnie się tego trzymać i tym samym wzór na współczynnik kierunkowy prostej to będzie \(\displaystyle{ a= \frac{cov(x,y)}{s _{x} ^{2} } }\) no i odpowiednio też drugi współczynnik. Nie można sobie tego zmieniać.

Dodano po 45 minutach 45 sekundach:
Swoją drogą dużo większy sens miałoby gdyby zmienną objaśnianą była cena karnetu bo później masz też dokonać predykcji ale no ja nie układałem tego zadania. Być może w takim razie nie ma potrzeby abyś zmieniał swoje równanie regresji tylko zostawił w formie\(\displaystyle{ x=0.736 \cdot y -47.2}\)
Nie wiem jednak po co w zadaniu było narzucone aby \(\displaystyle{ X}\) było ceną karnetu bo to tylko niepotrzebnie miesza w głowie.
ODPOWIEDZ