본문 바로가기

728x90

공분산

(2)
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] 1. 공분산과 상관 행렬 공분산은 두 변수 간의 관계를 나타내는 통계적 지표입니다. 공분산은 변수 간의 편차를 계산하여 그 값들의 평균을 내는 과정으로 계산됩니다. 공분산 값이 0보다 크면 두 변수가 함께 증가하는 경향이 있으며, 0보다 작으면 하나의 변수가 증가할 때 다른 변수가 감소하는 경향이 있습니다. 하지만 공분산 값만으로는 변수의 단위에 의해 영향을 받아 해석이 어려운 경우가 있습니다. 상관 행렬은 공분산 행렬을 표준화하여 얻은 행렬로, 변수들 간의 상관 관계를 나타내는 지표입니다. 상관 행렬의 값은 -1과 1 사이에 위치하며, 1에 가까울수록 강한 양의 선형 상관관계를 나타내고, -1에 가까울수록 강한 음의 선형 상관관계를 나타냅니다. 상관 계수가 0에 가까울수록 두 변수 사이에는 선형 관계가..
[통계] Day 3-1 상관 분석 데이터 분석과 통계 분야에서 중요한 개념 1. 상관 분석 $($Correlation Analysis$)$: - 변수 간의 관련성을 측정하는 통계 기법. - 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨. - 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음. 2. 피어슨 계수 $($Pearson Correlation Coefficient$)$: - 두 연속형 변수 간의 선형 상관관계를 측정하는 방법. - -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄. - 피어슨 상관계수 공식: \[ r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i..