본문 바로가기

728x90

상관계수

(2)
[통계] Day 3-1 상관 분석 데이터 분석과 통계 분야에서 중요한 개념 1. 상관 분석 $($Correlation Analysis$)$: - 변수 간의 관련성을 측정하는 통계 기법. - 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨. - 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음. 2. 피어슨 계수 $($Pearson Correlation Coefficient$)$: - 두 연속형 변수 간의 선형 상관관계를 측정하는 방법. - -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄. - 피어슨 상관계수 공식: \[ r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i..
[통계] Day 1-4 이상치, 상관관계, 카이제곱 검정 데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다. 1. 이상치 $($Outlier$)$ 이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다. 상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다: 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값 제1사분위수..