Proszę o pomoc w rozważaniach nt. następującego zadania:
\(\displaystyle{ (1)y_{śr} = 200km}\) - średnia liczba km trasy narciarskiej w badanych obserwacjachUstalić siłę i rodzaj związku korelacyjnego pomiędzy ceną karnetu (X) oraz liczbą kilometrów tras narciarskich (Y).
Ustalić teoretyczną cenę karnetu w ośrodku narciarskim w którym jest 400 km tras, oraz podać interpretację
współczynnika kierunkowego oszacowanej prostej regresji.
Pomiar długości tras w analizowanych ośrodkach i cen karnetów dał następujące wyniki
\(\displaystyle{ (2)s_{y} = 110km}\) - odchylenie standardowe dla długości trasy w badanych obserwacjach
\(\displaystyle{ (3)cov(x,y) = 8910}\) - kowariancja
\(\displaystyle{ (4)x_{1} + x_{2} = ... + x_{25} = 2500 zł}\) - suma wszystkich badanych cen karnetu
\(\displaystyle{ (5)x^{2} _{1} + x^{2} _{2} + ... + x^{2} _{25} = 452 500}\) - suma kwadratów wszystkich badanych cen karnetu
Mam problem z obliczeniem współczynnika korelacji.
Moje rozważania:
Zadanie sugeruje ustalenie zmiennych - cena karnetu jako zmienna niezależna X (objaśniająca) oraz długość trasy narciarskiej, jako zmienna zależna Y (objaśniana). Jeśli dobrze rozumiem, to można powiedzieć, że badamy jak zmienia się długość trasy w zależności od ceny karnetu. Spodziewamy się, że wyższa cena jest związana z dłuższą trasą.
Pierwsza część zadania dotyczy korelacji, jedyny wzór (z podanych na wykładzie), który daje jakiekolwiek szanse na rozwiązanie to
\(\displaystyle{ r = \frac{cov(x,y)}{ s_{x}\cdot s_{y}} }\)
Mamy podaną kowariancję i odchylenie dla długości tras. Brakuje odchylenia dla ceny karnetu.
Wzór na odchylenie podany na wykładzie to:
\(\displaystyle{ s= \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n} (x_{i} - x_{śr})^{2}} }\)
O ile średnią możemy policzyć z (4):
\(\displaystyle{ x_{śr} = \frac{2500}{25} = 100zł }\)
To nie znamy cen pojedynczych karnetów.
Podejrzewam, że nie podali sumy kwadratów ot tak sobie, więc jedyne na co po jakimś czasie wpadłem to rozwinięcie wzoru skróconego mnożenia - w końcu:
\(\displaystyle{ s_{x} = \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n} (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{n} \cdot \sum_{i=1}^{n}(x_{i}^{2} - 2x_{i}x_{śr} + x_{śr}^{2})} }\)
W zadaniu mamy podaną zarówno sumę kwadratów, jak i sumę pojedynczych cen karnetów, dlatego wydaje mi się, że można zapisać tak (o ile te duże znaki sumy działają tak jak myślę - stałe można wyrzucić przed znak sumy?)
\(\displaystyle{ s_{x} =\sqrt{\frac{1}{n}\sum_{i=1}^{n} \cdot (x_{i} - x_{śr})^{2}} = \sqrt{\frac{1}{25} \cdot (452500 -2\cdot 2500\cdot 100 + 100^{2} )} }\)
I tu niestety wychodzi mi liczba ujemna pod pierwiastkiem, co na naszym poziomie (nie korzystamy z liczb zespolonych) świadczy o błędzie w rozumowaniu.
Proszę o pomoc - wykazanie błędu u mnie lub wskazanie lepszej/prostszej metody obliczeń, bo zapewne taka istnieje. Może nie znam jakiegoś wzoru, w którym podana suma kwadratów cech jest możliwa do wykorzystania? Po co podali sumę kwadratów? Czy faktycznie chodzi tutaj o skorzystanie ze wzoru skróconego mnożenia?
*********************************************************
Reszta zadania jest dla mnie zrozumiała, tylko ten współczynnik korelacji nie daje mi spokoju. Ewentualnie jeśli ktoś może to proszę sprawdzić wyniki:
\(\displaystyle{ a_{x} =0,736}\) - współczynnik kierunkowy regresji - wzrost długości trasy o 1km jest związany ze wzrostem ceny karnetu o około 74gr
\(\displaystyle{ b_{x} = - 47,2}\) - wyraz wolny funkcji regresji
\(\displaystyle{ x(400) = 247,2}\) - teoretyczna cena karnetu dla trasy o długości 400km to około 247,2zł.