피어슨 상관 계수(Pearson Correlation Coefficient)

Updated:

피어슨 상관계수에 대해 간단히 알아보자

개인 공부내용 정리입니다.

Pearson Correlation Coefficient??

  • 우리가 쉽게 상관계수라고 할 때 이 피어슨 상관계수를 말함
  • 보통 상관계수를 가진다고 할 때에는 양의 상관계수, 음의 상관계수를 가진다고 말함
  • A와 B가 양의 상관계수를 가진다? : A가 커지면 B도 커짐
  • A와 B가 음의 상관계수를 가진다? : A가 커지면 B는 작아짐

이제 커지는 비율을 수치로 나타내면 끝입니다.

피어슨 상관계수는 -1~+1의 값을 가집니다. +1은 완벽한 양의 상관관계, 0은 선형 상관관계가 없음을, -1은 완벽한 음의 상관관계를 가집니다.

그 사이의 값들은 음,양에 따라 해당 값으 비율만큼의 영향을 끼친다고 생각하시면 됩니다.

피어슨 상관관계 수식

\[\Gamma_{XY} = \frac{\sum_{i}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\sqrt{\sum_{i}^{n}(X_{i}-\bar{X})^{2}}\sqrt{\sum_{i}^{n}(Y_{i}-\bar{Y})^{2}}}\]

두 변수의 공분산(covariance)을 각 표준 편차의 곱으로 나눈 값입니다. 그러면 각 분모와 분자 행에서 (n-1) 값이 소거되어 위와 같은 식으로 정리됩니다.

여기서 X,Y는 벡터인데 식을 분석하면 아래와 같습니다.

  • 각 벡터의 표본평균을 구해서 0이 아닌 각 원소에 빼주어 normalization
  • normalized된 벡터들 사이의 cosine similarity를 계산

즉 normalized된 cosine similarity를 계산하는 것이기에 피어슨 상관관계를 similarity로 해석 가능합니다.

주의할 점

상관계수는 선형관계의 강도만 측정하기에, 같은 값을 가지는 상관계수를 그려보면 동일한 분포모양을 가진다고 오해할 수 있습니다. 하지만 같은 상관계수 값을 가지더라도 나타나는 관계는 다를 수 있습니다..! 따라서 상관계수 값에만 의존하면 안되고 실제로 데이터를 그려보고 분석을 하는 것이 중요합니다.

출처

https://umbum.dev/1006

Leave a comment