다변량 분석은 여러 개의 독립 변수와 종속 변수 간의 관계를 분석하는 통계적 방법으로, 주로 독립 변수들이 종속 변수에 미치는 영향을 이해하고 예측 모델을 개발하는 데 활용됩니다. 이는 데이터의 탐색과 시각화, 변수의 특성과 성질 파악, 데이터 전처리와 변수 선택, 예측 및 분류 등 다양한 목적으로 활용됩니다.
데이터의 다양한 정보를 제공하며 변수 간의 상관 관계를 파악하는 데 유용하며, 또한 데이터의 차원을 축소하여 복잡성을 줄이고 모델을 개선하는 데에도 활용됩니다. 다변량 분석은 주로 회귀 분석, 다변량 분산 분석, 요인 분석, 주성분 분석 등의 기법을 포함하며, 시각화 기법으로는 산점도 행렬, 병렬 좌표, 히트맵, 다차원 척도법 등을 활용하여 변수들 간의 관계를 시각적으로 이해하고 패턴을 발견할 수 있습니다.
1. 주요 기법
- 회귀 분석 $($Regression Analysis$)$
종속 변수와 한 개 이상의 독립 변수 간의 관계를 분석하는 방법입니다. 주어진 데이터를 통해 독립 변수의 값에 따른 종속 변수의 변화를 예측하고 설명하는 모델을 만들 수 있습니다.
- 다변량 분산 분석 $($MANOVA$)$
종속 변수가 여러 개인 경우에 사용되는 분석 방법입니다. 종속 변수들 간의 상호 작용과 독립 변수들의 효과를 동시에 평가하는 것이 특징입니다.
- 인자 분석 $($Factor Analysis$)$
변수들 사이의 잠재적인 요인을 추출하는 방법입니다. 주어진 데이터의 차원을 줄이고 변수들의 구조와 관계를 파악하는 데 사용됩니다.
- 주성분 분석 $($PCA$)$
다중 변수들 간의 상관 관계를 고려하여 데이터를 새로운 축으로 변환하는 방법입니다. 이를 통해 데이터의 차원을 줄이고 변수들의 변동성을 설명하는 주성분들을 추출합니다. PCA는 변수 선택, 데이터 시각화, 차원 축소 등에 널리 사용됩니다.
2. 정규분포와 통계적 가설 검정
- 가설 설정: 독립 변수와 종속 변수 간의 관계를 확인하거나 변수 간의 차이를 평가하는 등의 가설을 설정할 수 있습니다.
- 가설 검정 통계량 계산: 설정한 가설에 따라 해당하는 통계량을 계산합니다.
- 유의 수준 설정: 유의 수준은 가설 검정 결과의 신뢰도를 나타내는 지표로, 보통 0.05 또는 0.01과 같이 설정합니다. 이 수준을 기준으로 p-value를 비교하여 가설을 기각하거나 채택합니다.
- 검정 통계량과 기준값 비교: 계산한 검정 통계량과 유의 수준에 따른 기준값을 비교하여 가설을 검정합니다. 만약 검정 통계량이 기준값보다 작으면 가설을 기각하고, 그렇지 않으면 가설을 채택합니다.
- 결과 해석: 검정 결과를 통해 가설을 검정한 후, 해당 가설이 채택되었는지 또는 기각되었는지를 해석합니다. 이를 통해 변수 간의 관계나 차이에 대한 결론을 도출할 수 있습니다.
3. 정규성 검정
- 다변량 산점도 그래프: 변수들 간의 관계를 시각화하고 정규성을 확인하는 방법. 데이터의 패턴과 분포를 파악하여 정규성 여부를 판단합니다.
- 다변량 카이제곱 검정: 관찰값과 기대값 간의 차이를 검정하여 데이터의 정규성 여부를 판단합니다.
- 다변량 Shapiro-Wilk 검정: 변수들의 조합에 대한 정규성을 확인하여 데이터가 정규 분포를 따르는지 판단합니다.
- 다변량 커트리스-마라테스 테스트: 다변량 데이터의 공분산 행렬의 특성값들이 정규 분포를 따르는지를 확인합니다.
4. 이상치 탐지
- 다변량 통계적 방법
대표적인 방법으로 다변량 평균 벡터와 공분산 행렬을 추정한 후, Mahalanobis 거리를 계산하여 이상치를 식별합니다.
Mahalanobis 거리는 다변량 데이터에서 이상치를 탐지하는 데에 사용되는 지표로, 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 측정하는 값입니다. 이 거리는 변수들 간의 상관 관계와 데이터 분포의 형태를 고려하여 계산됩니다.
Mahalanobis 거리의 공식
$$D_M = \sqrt{(\mathbf{x} - \mathbf{\mu})^\intercal \mathbf{S}^{-1} (\mathbf{x} - \mathbf{\mu})}$$
여기서,
- \(D_M\)은 Mahalanobis 거리를 나타냅니다.
- \(\mathbf{x}\)는 탐지하려는 데이터 포인트의 다변량 값 벡터입니다.
- \(\mathbf{\mu}\)는 다변량 변수들의 평균 벡터입니다.
- \(\mathbf{S}^{-1}\)은 공분산 행렬의 역행렬을 나타냅니다.
Mahalanobis 거리는 데이터 포인트가 다변량 분포에서 얼마나 표준편차 범위 안에 있는지를 측정합니다. 데이터가 평균에 가까울수록 Mahalanobis 거리는 작아지며, 데이터가 평균에서 멀어질수록 거리는 커집니다. 이 거리는 변수 간의 상관 관계를 고려하기 때문에, 단변량 분석에서 사용되는 Z-score와는 다른 개념입니다.
Mahalanobis 거리를 사용하여 이상치를 탐지할 때, 일반적으로 임계값을 설정하여 거리가 해당 임계값보다 큰 경우를 이상치로 판단합니다. 이상치의 Mahalanobis 거리는 평균과 떨어진 정도가 크기 때문에 큰 값을 가지게 됩니다.
- 기계 학습 기반 방법
기계 학습 알고리즘을 활용하여 정상적인 패턴을 학습하고, 이상치로 판단되는 데이터를 식별하는 방법입니다.
비지도 학습 방법인 One-Class SVM, Isolation Forest, Local Outlier Factor 등이 널리 사용됩니다.
- 차원 축소 기반 방법
다변량 데이터의 차원을 축소한 후, 축소된 공간에서 이상치를 탐지하는 방법입니다.
PCA를 활용하여 데이터를 저차원 공간으로 투영한 후, 이상치를 식별할 수 있습니다.
5. 최소자승법을 사용한 다변량 선형 회귀 추정
최소자승법은 다변량 선형 회귀에서 종속 변수와 독립 변수 간의 관계를 모델링하는 데 사용됩니다. 이 방법은 주어진 데이터에 가장 잘 적합하는 회귀 계수를 찾는 것을 목표로 합니다. 다변량 선형 회귀에서는 여러 개의 독립 변수가 종속 변수에 영향을 미치는 경우에 사용됩니다. 최소자승법은 오차의 제곱합을 최소화하는 회귀 계수를 계산하며, 이를 통해 독립 변수의 영향력과 관계를 파악할 수 있습니다.
오차의 제곱합 (SSE) = $\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
여기서,
- $n$은 데이터의 개수를 나타냅니다.
- $y_i$는 실제 종속 변수의 값입니다.
- $\hat{y}_i$는 모델의 예측값으로, 독립 변수와 회귀 계수를 사용하여 계산됩니다.
'IT > AI' 카테고리의 다른 글
데이터와 전처리 (0) | 2023.08.23 |
---|---|
[NLP] 자연어 처리: 트랜스포머 [기초] (0) | 2023.08.22 |
[통계] Day 7-1 데이터 분석: 군집 분석 (0) | 2023.08.22 |
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] (0) | 2023.08.22 |