데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다.
1. 이상치 $($Outlier$)$
이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다.
상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다:
- 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값
- 제1사분위수 $($Q1$)$: 데이터를 작은 값부터 나열했을 때, 하위 25%에 해당하는 값
- 중앙값 $($Median$)$: 데이터를 작은 값부터 나열했을 때, 가운데에 위치한 값
- 제3사분위수 $($Q3$)$: 데이터를 작은 값부터 나열했을 때, 하위 75%에 해당하는 값
- 최댓값 $($Maximum$)$: 데이터 중 가장 큰 값
- 사분위 범위 $($IQR$)$: 제3사분위수$($Q3$)$에서 제1사분위수$($Q1$)$를 뺀 값으로, 데이터의 중간 50% 범위를 나타냅니다.
일반적으로 이상치는 Q1 - 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 값으로 정의됩니다. 상자 그림에서 이 밖의 값들이 박스 내부에 위치하지 않는다면 이상치로 판단됩니다.
2. 상관관계 $($Correlation$)$
상관관계는 두 변수 사이의 관계성을 나타내는 지표입니다. 상관계수는 -1에서 1 사이의 값을 가지며, 값에 따라 다음과 같이 해석됩니다:
- 1에 가까울수록 양의 상관관계
- -1에 가까울수록 음의 상관관계
- 0에 가까울수록 상관관계가 없다
상관관계는 데이터가 얼마나 밀접하게 관련되어 있는지를 알려줍니다. 이 정보는 변수 간의 연관성을 파악하고 예측 모델링에 유용하게 사용됩니다.
이상치와 상관관계는 데이터 분석의 핵심이며, 이를 이해하고 적절히 다루는 것이 데이터에 내포된 의미를 해석하는 데 도움을 줍니다. 데이터 분석에서 이러한 개념을 활용하여 정확한 결과 도출과 의사 결정을 할 수 있습니다.
데이터 분석에서는 주어진 데이터로부터 유의미한 정보를 도출하고 결론을 내리기 위해 다양한 통계적 분석 방법이 사용됩니다. 이 중에서도 카이제곱 검정과 가설 검정은 매우 중요한 도구로 활용됩니다. 이제 카이제곱 검정과 가설 검정에 대해서 알아보도록 하겠습니다.
3. 카이제곱 검정 $(\chi$, Chi-Square Test$)$
카이제곱 검정은 두 개 이상의 범주형 변수가 서로 관련이 있는지 검증하기 위해 사용됩니다. 이것은 관찰된 값$($observed value$)$과 기대값$($expected value$)$을 비교하여 검정합니다. 카이제곱 검정에서 중요한 개념은 다음과 같습니다:
- 귀무가설 $($null hypothesis$)$: 통계적 검정에서 기본적으로 세워지는 가설입니다. 귀무가설은 검정 대상이 되는 모집단의 특성에 대한 가설이며, 일반적으로 무의미한 차이가 존재한다는 가정으로 설정됩니다.
- p-value: 귀무가설이 참인 경우에도 우연히 검정통계량이 귀무가설보다 더 극단적인 값을 가질 확률을 나타내는 값입니다. 일반적으로, p-value가 0.05 이하이면 해당 검정 결과는 통계적으로 유의미하다고 판단하며, 귀무가설을 기각하게 됩니다. 이는, 우연히 발생할 확률이 5% 이하로 작다는 것을 의미합니다. 반대로, p-value가 0.05보다 크다면 해당 검정 결과는 통계적으로 유의하지 않으며, 귀무가설을 채택하게 됩니다.
- 자유도 $($degree of freedom$)$: 검정 통계량이 자유롭게 움직일 수 있는 정도를 나타내는 값입니다. 카이제곱 검정에서 자유도는 간단하게 구할 수 있습니다.
자유도 = $($행의 개수 - 1$)$ x $($열의 개수 - 1$)$ - 기대값 (expected value): 특정한 조건에서 어떤 사건이 발생할 것으로 예상되는 평균적인 값입니다.
기대값((n,m) 요소) = $\frac{n\text{행의 계} \times m\text{행의 계}}{\text{총계}}$
카이제곱 검정은 두 범주형 변수 간의 연관성을 파악하는 데 유용하며, 통계적으로 유의미한 관련성을 판단할 수 있습니다.
포스팅에서 다룬 이상치와 상관관계, 그리고 이제 다루는 카이제곱 검정과 가설 검정은 데이터 분석의 핵심 도구로서, 데이터의 내재된 의미를 파악하고 판단하는 데 도움을 줍니다. 이러한 통계적 분석 방법을 효과적으로 활용하여 데이터로부터 가치 있는 정보를 얻어내는 것이 데이터 분석의 핵심입니다.
'IT > AI' 카테고리의 다른 글
[통계] Day 2-2 데이터 분석 방법 (0) | 2023.08.11 |
---|---|
[통계] Day 2-1 데이터 형태: 순서형, 이진, 시계열, 공간 (0) | 2023.08.11 |
[통계] Day 1-3 데이터 형태: 연속형, 이산형, 범주형 (0) | 2023.08.10 |
[통계] Day 1-2 AI 통계 서비스 (0) | 2023.08.10 |