피어슨 상관 계수(Pearson Correlation Coefficient)
Updated:
피어슨 상관계수에 대해 간단히 알아보자
개인 공부내용 정리입니다.
Pearson Correlation Coefficient??
- 우리가 쉽게 상관계수라고 할 때 이 피어슨 상관계수를 말함
- 보통 상관계수를 가진다고 할 때에는 양의 상관계수, 음의 상관계수를 가진다고 말함
- A와 B가 양의 상관계수를 가진다? : A가 커지면 B도 커짐
- A와 B가 음의 상관계수를 가진다? : A가 커지면 B는 작아짐
이제 커지는 비율을 수치로 나타내면 끝입니다.
피어슨 상관계수는 -1~+1의 값을 가집니다. +1은 완벽한 양의 상관관계, 0은 선형 상관관계가 없음을, -1은 완벽한 음의 상관관계를 가집니다.
그 사이의 값들은 음,양에 따라 해당 값으 비율만큼의 영향을 끼친다고 생각하시면 됩니다.
피어슨 상관관계 수식
\[\Gamma_{XY} = \frac{\sum_{i}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\sqrt{\sum_{i}^{n}(X_{i}-\bar{X})^{2}}\sqrt{\sum_{i}^{n}(Y_{i}-\bar{Y})^{2}}}\]두 변수의 공분산(covariance)을 각 표준 편차의 곱으로 나눈 값입니다. 그러면 각 분모와 분자 행에서 (n-1) 값이 소거되어 위와 같은 식으로 정리됩니다.
여기서 X,Y는 벡터인데 식을 분석하면 아래와 같습니다.
- 각 벡터의 표본평균을 구해서 0이 아닌 각 원소에 빼주어 normalization
- normalized된 벡터들 사이의 cosine similarity를 계산
즉 normalized된 cosine similarity를 계산하는 것이기에 피어슨 상관관계를 similarity로 해석 가능합니다.
주의할 점
상관계수는 선형관계의 강도만 측정하기에, 같은 값을 가지는 상관계수를 그려보면 동일한 분포모양을 가진다고 오해할 수 있습니다. 하지만 같은 상관계수 값을 가지더라도 나타나는 관계는 다를 수 있습니다..! 따라서 상관계수 값에만 의존하면 안되고 실제로 데이터를 그려보고 분석을 하는 것이 중요합니다.
출처
https://umbum.dev/1006
Leave a comment