반응형
공분산과 상관계수에 대해 정리해보고자 한다.
코베리언스, 코릴레이션이라고 말하는 사람들도 종종 보인다.
이상한 단어가 아니라 그냥 공분산, 상관계수니 그렇게 들으면 된다.
공분산(Covariance)
공분산은 두 개의 변수들 간의 편차를 활용한 변수이다.
Cov(X,Y) = E((X-Mean(X))(Y-Mean(Y))) 로 표현된다.
이를 활용해 두 변수의 상관관계의 부호를 파악할 수 있다.
하지만 각 변수마다 단위 등에 의해 크기가 차이날 수 있는데, 이런 문제로 인해 상관관계의 크기를 알기는 힘들다.
참고로 위의 식을 전개하면 Cov(X,Y) = E(XY) - mean(X)mean(Y)가 된다.
여기서 X,Y가 독립이면 E(XY) = E(X)E(Y)가 되므로 공분산이 0이 된다.
상관계수(Correlation coefficient)
이를 보완하기 위해 나온 것이 상관계수다
상관계수는 피어슨 상관계수 기준 공분산에서 각 변수의 표준편차를 곱한 값으로 나눈 값이다.
-1~1사이의 값을 가지며 공분산과 마찬가지로 두 변수가 독립이면 값이 0이 된다.
상관관계의 부호, 값을 통해 두 변수간의 상관관계를 파악할 수 있다.
반응형