Współczynnik korelacji liniowej Pearsona - jak obliczać?

Zbiór wzorów, definicji i najczęściej poruszanych problemów z probabilistyki oraz statystyki matematycznej.
Awatar użytkownika
abrasax
Gość Specjalny
Gość Specjalny
Posty: 844
Rejestracja: 20 maja 2005, o 13:19
Płeć: Kobieta
Lokalizacja: Zabrze
Podziękował: 1 raz
Pomógł: 161 razy

Współczynnik korelacji liniowej Pearsona - jak obliczać?

Post autor: abrasax » 4 sie 2008, o 17:27

Obliczanie współczynnika korelacji liniowej Pearsona


Wartość współczynnika korelacji liniowej na podstawie n-elementowej próbki obliczamy według wzoru:
\(\displaystyle{ r=\frac{\sum\limits_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2\sum\limits_{i=1}^{n}(y_i-\overline{y})^2}} = \frac{\frac{1}{n} \sum\limits_{i=1}^{n}x_iy_i - \overline{x} \, \overline{y}}{\sqrt{\left( \frac{1}{n} \sum\limits_{i=1}^{n}x_i^2-\overline{x}^2 \right) \left( \frac{1}{n} \sum\limits_{i=1}^{n} y_i^2-\overline{y}^2\right) }}}\)
gdzie \(\displaystyle{ \overline{x}, \ \overline{y}}\) - odpowiednie średnie:
\(\displaystyle{ \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i, \ \ \overline{y}=\frac{1}{n}\sum_{i=1}^n y_i}\)


Interpretacja wyniku
  • \(\displaystyle{ r \in [-1,1]}\),
  • współczynnik korelacji jest miarą związku liniowego, \(\displaystyle{ r=0}\) oznacza brak zależności liniowej, na tej podstawie nie można wnioskować o niezależności zmiennych,
  • gdy \(\displaystyle{ r>0}\) - korelacja dodatnia - wzrostowi wartości zmiennej X towarzyszy wzrost wartości zmiennej Y,
  • gdy \(\displaystyle{ r 0,9 - bardzo silna zależność.}\)
[/list][/list]

Przykład

Czy istnieje liniowa zależność między liczbą nowych użytkowników (X) a liczbą nieregulaminowych tematów (Y) w poszczególnych godzinach działania forum?
\(\displaystyle{ \begin{array}{r|r|r|r|r|r}
i&x_i&y_i&x_iy_i&x_i^2&y_i^2 \\ \hline
1&0&1&0&0&1\\
2&2&2&4&4&4\\
3&1&5&5&1&25\\
4&4&6&24&16&36\\
5&1&2&2&1&4\\ \hline
\sum &8&16&35&22&70 \\
\end{array}}\)
\(\displaystyle{ n=5 \\
\overline{x}=\frac{1}{5}\cdot 8 =1,6 \\
\overline{y} = \frac{1}{5} \cdot 16= 3,2 \\
r=\frac{\frac{1}{5}\cdot 35 - 1,6 \cdot 3,2}{\sqrt{\left( \frac{1}{5} \cdot 22 - 1,6^2 \right) \left( \frac{1}{5} \cdot 70 - 3,2^2 \right)}}=0,71}\)

  • \(\displaystyle{ r > 0}\) - korelacja dodatnia - wraz ze wzrostem liczby nowych użytkowników rośnie liczba nieregulaminowych tematów,
  • \(\displaystyle{ r = 0,71}\) - zależność liniowa między liczbą nowych użytkowników a liczbą nieregulaminowych tematów jest dość silna.
Rekrutacja Instytut Matematyczny, Uniwersytet Wrocławski (gif)

ODPOWIEDZ