데이터 분석과 통계 분야에서 중요한 개념
1. 상관 분석 $($Correlation Analysis$)$:
- 변수 간의 관련성을 측정하는 통계 기법.
- 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨.
- 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음.
2. 피어슨 계수 $($Pearson Correlation Coefficient$)$:
- 두 연속형 변수 간의 선형 상관관계를 측정하는 방법.
- -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄.
- 피어슨 상관계수 공식:
\[
r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i - \bar{y})^2}}}
\]
여기서 $x_i, y_i$는 각각 변수 x와 y의 관찰값, $\bar{x}$, $\bar{y}$는 평균값을 나타냅니다.
3. 공분산 $($Covariance$)$:
- 두 변수 간의 관계의 편차를 계산한 값.
- 부호와 크기로 상관관계의 방향과 세기를 알 수 있음.
- 공분산 공식:
\[
\text{cov}(x, y) = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{n}
\]
여기서 $x_i, y_i$는 각각 변수 x와 y의 관찰값, $\bar{x}$, $\bar{y}$는 평균값을 나타냅니다.
4. 산점도 $($Scatter Plot$)$:
- 두 변수 간의 관계를 시각화하기 위한 그래프.
- 점들이 흩어진 정도와 분포를 확인하여 상관관계의 유형 파악.
5. 회귀 직선 $($Regression Line$)$:
- 종속 변수와 하나 이상의 독립 변수 간의 선형 관계를 나타내는 직선.
- 예측과 추정을 위해 사용됨.
6. 선형관계와 비선형관계:
- 두 변수 간의 상호 작용을 통해 그 관계를 설명하는 것.
- 선형 관계는 직선적인 관계를 의미하며, 비선형 관계는 곡선 형태의 관계를 의미.
7. 다중 상관분석 $($Multiple Correlation Analysis$)$:
- 세 개 이상의 변수 간의 상관관계를 분석하는 기법.
- 각 변수가 다른 모든 변수와 어떻게 관련되어 있는지 파악.
8. 부분상관분석 $($Partial Correlation Analysis$)$:
- 세 개 이상의 변수가 있을 때, 한 변수의 영향을 배제하고 두 변수 간의 상관관계를 측정.
9. 시계열 상관분석 $($Time Series Correlation Analysis$)$:
- 시간에 따라 변화하는 데이터 간의 상관관계를 분석.
- 시계열 데이터의 특성과 변동성을 이해하고 예측에 활용.
이용 분야
1. 상관 분석 $($Correlation Analysis$)$:
- 경제학: 금리와 주가의 상관관계 분석
- 의학: 약물 투여와 환자의 반응 간의 연관성 분석
- 사회과학: 교육 수준과 소득 간의 관계 파악
2. 피어슨 계수 $($Pearson Correlation Coefficient$)$:
- 경영학: 제품 가격과 판매량의 상관관계 분석
- 자연과학: 기온과 식물 성장률 간의 관련성 파악
- 사회과학: 나이와 소비 패턴 간의 연관성 분석
3. 공분산 $($Covariance$)$:
- 금융학: 주식 가격과 수익률의 관계 파악
- 환경과학: 기후 변화와 생태계 변동성 간의 연관성 분석
- 생물학: 인구 밀도와 종의 생존률 간의 관계 분석
4. 산점도 $($Scatter Plot$)$:
- 경제학: 소비자 지출과 가계 소득의 분포 확인
- 마케팅: 광고비와 판매량 간의 흩어진 관계 시각화
- 심리학: 스트레스 수준과 건강 상태의 흩어진 분포 확인
5. 회귀 직선 $($Regression Line$)$:
- 경제학: 경제 지표와 경기 변동의 예측에 활용
- 의학: 환자의 연령과 혈압 간의 예측 모델 구축
- 교육학: 학업 성취도와 학습 시간의 관계 예측
6. 선형관계와 비선형관계:
- 물리학: 운동량과 속도의 선형 관계 분석
- 생물학: 온도와 생물 활동 간의 비선형 관계 파악
- 경영학: 제품 가격과 수요 간의 선형 또는 비선형 모델 구축
7. 다중 상관분석 $($Multiple Correlation Analysis$)$:
- 의학: 여러 요인과 질병 발생 간의 복합적 관계 파악
- 사회과학: 소득, 교육, 건강 등 여러 변수 간의 종합적 상관성 분석
- 환경학: 기후 변화, 인구 증가, 자원 소모 등 다양한 요인과의 상호작용 분석
8. 부분상관분석 $($Partial Correlation Analysis$)$:
- 의학: 약물 복용과 질병 발생 간의 관계를 다른 요인 배제하고 분석
- 경제학: 두 가지 변수 간의 상관성을 특정 제3의 변수 영향 배제하며 파악
9. 시계열 상관분석 $($Time Series Correlation Analysis$)$:
- 금융학: 주가와 금리 등 시계열 데이터 간의 상관관계 분석
- 기상학: 기후 변화와 자연재해 발생 간의 시간적 상관성 파악
- 경제학: 경기 변동과 실업률 등 시간에 따른 변수 간의 관계 분석
'IT > AI' 카테고리의 다른 글
[통계] Day 3-3 데이터 분포 가정과 가정 검토 (0) | 2023.08.16 |
---|---|
[통계] Day 3-2 분포 모형에 대한 이해 (0) | 2023.08.16 |
[통계] Day 2-3 가설 검정과 분석 방법 (0) | 2023.08.11 |
[통계] Day 2-2 데이터 분석 방법 (0) | 2023.08.11 |