Research

Research

피어슨 상관계수 (Pearson correlation coefficient)

각 데이터간의 유사도를 측정하기 위해 많이 사용되는 피어슨 상관계수는 다음과 같다. 분모에 제곱을해서 루트를 씌운 이유는 그 값에 음수가 되지 않게 하기 위함이다. r의 값이 1이면 동일하게 움직인다고 볼 수 있고 -1이면 완전히 반대로 그리고 0이면 상관관계가 없다고 해석할 수 있다. 참고로 상관계수가 양수이면 같은 방향으로 움직이며 양의 상관관계를 가진다고 말하고 음수이면 반대 방향으로 움직이며 음의 상관관계를 가진다고 말할 수 있다. 상관계수의 결과 양수와 음수 모두 상관관계가 있다고 해석할 수 있다.

$$ r = \frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})} {\sqrt {\sum_{i=1}^n (x_i-\overline{x})^2} \sqrt{ \sum_{i=1}^n (y_i-\overline{y})^2 } } $$

사용자가 어떤 상품에 대해 평가한다고 가정했을 때 위 상관식을 적용해보면 \(x_i\) 는 x가 i에 대한 점수이고 \(y_i\) 는 y가 i에 대해 평가한 점수가 된다. \(\overline{x}\)는 x에 대한 평균이다. y 의 경우도 마찬가지로 계산할 수 있다.

만약 Excel을 이용한다면 더 쉽게 계산할 수 있다. 계산 없이 PEARSON 함수를 그냥 사용하기만 하면된다. (예: =PEARSON(A2:A11, B2:B11))

wikipedia에 따르면 상관계수의 기본적인 개념은 "r = X와 Y가 함께 변하는 정도 / X와 Y가 따로 변하는 정도" 이다. 당연한 얘기처럼 들리겠지만 분모와 분자가 같을 수록 1이 된다.  그리고 분모의 수식을 자세히 보면 표준편차(standard deviation)와 같음을 알 수 있다. 그리고 분자는 분모를 제곱한 형태로 생각할 수도 있는데 분자는 분산과 같다. 즉, 위 수식은 표준편차 대비 얼마나 분산되어 있는지를 의미하는 것이라 생각할 수 있다. (개인적으로 이해한 부분이라 틀릴 수도 있다.)


Research - Mr. Latte

Jong-Ha Ahn에 의해 작성된 Mr. Latte 은(는) 크리에이티브 커먼즈 저작자표시-비영리-변경금지 3.0 Unported 라이선스에 따라 이용할 수 있습니다.

Mr. Latte by Jong-Ha Ahn is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License.

블로그 게시물에 대해 다른 라이선스 권한이 필요하신 경우 해당 게시물에 댓글을 남겨 주세요. 감사합니다.

크리에이티브 커먼즈 라이선스


피드 구독하기: 댓글 (Atom)