본문 바로가기

IT/AI

[통계] Day 3-1 상관 분석

728x90

데이터 분석과 통계 분야에서 중요한 개념

 

1. 상관 분석 $($Correlation Analysis$)$:
   - 변수 간의 관련성을 측정하는 통계 기법.
   - 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨.
   - 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음.

2. 피어슨 계수 $($Pearson Correlation Coefficient$)$:
   - 두 연속형 변수 간의 선형 상관관계를 측정하는 방법.
   - -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄.

   - 피어슨 상관계수 공식:
     \[
     r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i - \bar{y})^2}}}
     \]
     여기서 $x_i, y_i$는 각각 변수 x와 y의 관찰값, $\bar{x}$, $\bar{y}$는 평균값을 나타냅니다.


3. 공분산 $($Covariance$)$:
   - 두 변수 간의 관계의 편차를 계산한 값.
   - 부호와 크기로 상관관계의 방향과 세기를 알 수 있음.
   - 공분산 공식:
     \[
     \text{cov}(x, y) = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{n}
     \]
     여기서 $x_i, y_i$는 각각 변수 x와 y의 관찰값, $\bar{x}$, $\bar{y}$는 평균값을 나타냅니다.

4. 산점도 $($Scatter Plot$)$:
   - 두 변수 간의 관계를 시각화하기 위한 그래프.
   - 점들이 흩어진 정도와 분포를 확인하여 상관관계의 유형 파악.

5. 회귀 직선 $($Regression Line$)$:
   - 종속 변수와 하나 이상의 독립 변수 간의 선형 관계를 나타내는 직선.
   - 예측과 추정을 위해 사용됨.

 

산점도와 회귀 직선



6. 선형관계와 비선형관계:
   - 두 변수 간의 상호 작용을 통해 그 관계를 설명하는 것.
   - 선형 관계는 직선적인 관계를 의미하며, 비선형 관계는 곡선 형태의 관계를 의미.


7. 다중 상관분석 $($Multiple Correlation Analysis$)$:
   - 세 개 이상의 변수 간의 상관관계를 분석하는 기법.
   - 각 변수가 다른 모든 변수와 어떻게 관련되어 있는지 파악.

8. 부분상관분석 $($Partial Correlation Analysis$)$:
   - 세 개 이상의 변수가 있을 때, 한 변수의 영향을 배제하고 두 변수 간의 상관관계를 측정.

9. 시계열 상관분석 $($Time Series Correlation Analysis$)$:
   - 시간에 따라 변화하는 데이터 간의 상관관계를 분석.
   - 시계열 데이터의 특성과 변동성을 이해하고 예측에 활용.

 

 

이용 분야

더보기

1. 상관 분석 $($Correlation Analysis$)$:
   - 경제학: 금리와 주가의 상관관계 분석
   - 의학: 약물 투여와 환자의 반응 간의 연관성 분석
   - 사회과학: 교육 수준과 소득 간의 관계 파악

2. 피어슨 계수 $($Pearson Correlation Coefficient$)$:
   - 경영학: 제품 가격과 판매량의 상관관계 분석
   - 자연과학: 기온과 식물 성장률 간의 관련성 파악
   - 사회과학: 나이와 소비 패턴 간의 연관성 분석

3. 공분산 $($Covariance$)$:
   - 금융학: 주식 가격과 수익률의 관계 파악
   - 환경과학: 기후 변화와 생태계 변동성 간의 연관성 분석
   - 생물학: 인구 밀도와 종의 생존률 간의 관계 분석

4. 산점도 $($Scatter Plot$)$:
   - 경제학: 소비자 지출과 가계 소득의 분포 확인
   - 마케팅: 광고비와 판매량 간의 흩어진 관계 시각화
   - 심리학: 스트레스 수준과 건강 상태의 흩어진 분포 확인

5. 회귀 직선 $($Regression Line$)$:
   - 경제학: 경제 지표와 경기 변동의 예측에 활용
   - 의학: 환자의 연령과 혈압 간의 예측 모델 구축
   - 교육학: 학업 성취도와 학습 시간의 관계 예측

6. 선형관계와 비선형관계:
   - 물리학: 운동량과 속도의 선형 관계 분석
   - 생물학: 온도와 생물 활동 간의 비선형 관계 파악
   - 경영학: 제품 가격과 수요 간의 선형 또는 비선형 모델 구축

7. 다중 상관분석 $($Multiple Correlation Analysis$)$:
   - 의학: 여러 요인과 질병 발생 간의 복합적 관계 파악
   - 사회과학: 소득, 교육, 건강 등 여러 변수 간의 종합적 상관성 분석
   - 환경학: 기후 변화, 인구 증가, 자원 소모 등 다양한 요인과의 상호작용 분석

8. 부분상관분석 $($Partial Correlation Analysis$)$:
   - 의학: 약물 복용과 질병 발생 간의 관계를 다른 요인 배제하고 분석
   - 경제학: 두 가지 변수 간의 상관성을 특정 제3의 변수 영향 배제하며 파악

9. 시계열 상관분석 $($Time Series Correlation Analysis$)$:
   - 금융학: 주가와 금리 등 시계열 데이터 간의 상관관계 분석
   - 기상학: 기후 변화와 자연재해 발생 간의 시간적 상관성 파악
   - 경제학: 경기 변동과 실업률 등 시간에 따른 변수 간의 관계 분석