Sprawdzenie - rozrzut, pearson, regresja, dobroć

m_ichal · Post autor: **m_ichal** » 24 lut 2013, o 23:30

Witam. Chciałbym spytać czy dobrze zrobiłem dane zadanie...

Dane dotyczące zależności pomiędzy stażem pracy w latach, a liczbą braków w sztukach dla 7 losowo wybranych robotników przedstawia tabela (od razu uzupełniam wszystkie obliczenia):
Za Y przyjąłem liczbę braków, za X staż pracowników.

\(\displaystyle{ \begin{tabular}{|rc|c|c|c|c|c|c|c}
\hline
liczba braków & staż w pracy & y_{i}-\overline{y} & x_{i}-\overline{x} & (y_{i}-\overline{y})^{2} & (x_{i}-\overline{x})^{2} & (y_{i}-\overline{y})(x_{i}-\overline{x})\\ \hline
50 & 1 & 26 & -8,4 & 676 & 70,56 & -218,4\\
49 & 2 & 25 & -7,4 & 625 & 54,76 & -185\\
35 & 5 & 11 & -4,4 & 121 & 19,36 & -48,4\\
12 & 7 & -12 & -2,4 & 144 & 5,76 & 28,8\\
10 & 11 & -14 & 1,6 & 196 & 2,56 & -22,4\\
7 & 15 & -17 & 5,6 & 289 & 31,36 & -95,2\\
5 & 25 & -19 & 15,6 & 361 & 243,36 & -296,4\\ \hline
168 & 66 & X & X & 2412 & 427,42 & -894,6\\
\end{tabular}}\)
\(\displaystyle{ \overline{y}= \frac{168}{7}=24}\)
\(\displaystyle{ \overline{x}= \frac{66}{7} \approx 9,4}\)

A. Naszkicuj wykres rozrzutu

B. Oblicz współczynnik korelacji liniowej Pearsona, wyznacz linię regresji, oceń dobroć dopasowania prostej do wyników obserwacji. Zinterpretuj otrzymane wyniki.

współczynnik korelacji liniowej, wzór:

\(\displaystyle{ r_{xy}= \frac{\sum (x_{i}-\overline{x})(y_{i}-\overline{y}) }{ \sqrt{\sum(x_{i}-\overline{x})^2(y_{i}-\overline{y})^2} } = \frac{-894,6}{ \sqrt{2412 \cdot 427,72} } = -0,88}\)
Korelacja ujemna, bardzo wysoka na pograniczu z prawie pełną

Linia regresji, wzory:
\(\displaystyle{ y=a+bx}\)

\(\displaystyle{ b= \frac{\sum (x-\overline{x})(y-\overline{y})}{\sum (x-\overline{x})^{2}}

a= \overline{y}-b \cdot \overline{x}=24-(-2,1*9,4)=24+19,74=43,74

y=43,74-2,1x}\)

C. Oceń dobroć dopasowania prostej do wyników obserwacji

wzór na dobroć (współczynnik determinacji?)

\(\displaystyle{ R^{2}=r^{2} \cdot 100\%}\)
\(\displaystyle{ R^{2}=0,88^2 \cdot 100\% = 77\%}\)
interpretacja
77% zmienności braków może być wyjaśnione zmiennością stażu pracy.
23% zmienności braków jest spowodowane innymi, nieznanymi czynnikami.

C. Jakiej liczby braków możemy spodziewać się przy stażu 10 lat

Tutaj mam po prostu podstawić 10 do wyznaczonej linii regresji? Wtedy wychodzi jakaś głupota...

\(\displaystyle{ y=43,74-2,1x =43,74-2,1 \cdot 10 = 22,74}\)

chris_f · Post autor: **chris_f** » 26 lut 2013, o 19:28

Obliczeń nie sprawdzałem, zakładam, że są prawidłowe.
Wygląda na to, że jest OK.
Wcale nie wyszła Ci głupota. Problem polega na tym, że wyznaczyłeś liniową linię regresji, czyli prostą, która możliwie najlepiej przybliża dane punkty (spróbuj ją zresztą naszkicować na tym wykresie), natomiast to zjawisko jest raczej zależnością hiperboliczną (proporcjonalność odwrotna), ewentualnie wykładniczą, dlatego otrzymany w ten sposób wynik tak bardzo "odstaje" od wartości empirycznych.
Spróbuj te wartości wklepać np. do Excela, i tam dodać funkcję trendu wykładniczego i liniowego.
Zobaczysz o ile lepiej trend wykładniczy przybliża te punkty niż liniowy.
Popatrz zresztą:

: AU; 43455926471686007821_thumb.jpg (5.52 KiB) Przejrzano 78 razy

[/url]
Gdyby użyć jako przybliżenia funkcji \(\displaystyle{ A+\frac{B}{x}}\) to dopasowanie było by jeszcze lepsze, ale to już wykracza poza podstawy statystyki.

m_ichal · Post autor: **m_ichal** » 1 mar 2013, o 14:31

Bardzo dziękuję!