본문 바로가기

IT/AI

[통계] Day 5-2 시계열 데이터 분석 모델링

728x90

1. 시계열 데이터의 기본 가정

시계열 데이터 분석을 시작하기 전에 이해해야 할 기본 가정이 있습니다. 이러한 가정들은 데이터의 특성을 이해하고 모델링을 진행하는 데 도움을 줍니다.

정상성 가정: 정상성은 시계열 데이터의 통계적 특성이 시간에 따라 일정하게 유지되는 것을 의미합니다. 이는 데이터의 평균과 분산이 시간에 따라 변하지 않으며, 시간에 따른 패턴이 일정하다는 것을 의미합니다. 정상성 가정을 만족하는 데이터는 예측이나 분석에 더욱 신뢰할 수 있습니다.

독립성 가정: 시계열 데이터는 시간에 따른 의존성을 가지기 때문에 이전 시점의 데이터가 현재 시점의 데이터에 영향을 줄 수 있습니다. 따라서 전통적인 독립성 가정은 성립되지 않습니다. 이는 데이터의 특성을 고려하며 모델을 선택하고 구성할 때 주의해야 함을 의미합니다.

잔차의 정규성 가정: 시계열 모델링에서는 모델의 잔차가 정규분포를 따른다는 가정을 합니다. 잔차는 모델로부터 예측된 값과 실제 관측 값 간의 차이를 의미합니다. 이 가정은 모델의 적합성과 예측의 신뢰성을 평가하는 데 사용됩니다.

 


2. 자기상관성 $($Autocorrelation$)$
- 자기상관성은 시계열 데이터 내에서 관측 값들 사이의 상관관계를 의미합니다. 특정 시간 지연$($lag$)$에 대한 관측 값들 간의 상관관계를 측정하여 데이터의 패턴을 분석할 수 있습니다. 자기상관성은 데이터의 주기성이나 추세를 파악하는 데 유용한 정보를 제공합니다.

3. 정상성 $($Stationarity$)$
- 정상성은 시계열 데이터 분석에서 중요한 개념입니다. 정상성을 가지지 않는 데이터는 시간에 따라 변동하는 특성을 가지며, 이는 예측의 불확실성을 증가시킬 수 있습니다. 따라서 정상성을 만족하지 않는 데이터의 경우 트렌드나 계절성을 제거하거나 변환하여 정상성을 가진 데이터로 변환하는 작업이 필요합니다.


4. AR 모델 $($자기회귀 모델$)$

자기회귀 모델$($AR 모델$)$은 시계열 데이터의 현재 값이 이전 시점의 값들에 의해 영향을 받는 모델입니다. AR 모델은 "자기회귀"라는 이름 그대로 자기 자신과의 관계를 모델링하는데 중점을 둡니다.

- 수식: AR$($p$)$ 모델
AR$($p$)$ 모델은 p개의 이전 시점 값을 사용하여 현재 값을 예측합니다. 수식으로는 다음과 같이 나타낼 수 있습니다.
$X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \epsilon_t$

 

더보기

$X_t$: 현재 시점의 값
$c$: 상수 항 $($bias$)$
$\phi_1, \phi_2, \cdots, \phi_p$: AR 모델의 계수 파라미터로, 각각 이전 시점의 값을 조절하는 역할을 합니다.
$X_{t-1}, X_{t-2}, \cdots, X_{t-p}$: 현재 시점 이전의 p개의 값들
$\epsilon_t$: 백색 잡음 $($White Noise$)$, 모델로 설명되지 않는 불규칙한 변동을 나타냅니다.
이 모델에서 $\phi_1, \phi_2, \cdots, \phi_p$의 값을 추정하여 모델을 구성하게 됩니다. 이렇게 구성된 모델을 통해 과거 데이터를 기반으로 현재 값을 예측할 수 있습니다. 단, 모델의 예측 성능을 평가하거나 모델 선택을 위해서는 모델의 계수와 백색 잡음의 특성을 고려한 평가 지표나 기준을 사용해야 합니다.

 


5. MA 모델 $($이동평균 모델$)$

이동평균 모델$($MA 모델$)$은 시계열 데이터의 현재 값이 이전 시점의 예측 오차에 의해 영향을 받는 모델입니다. MA 모델은 "이동평균"의 개념을 활용하여 데이터의 불규칙한 변동을 모델링하는데 사용됩니다.

- 수식: MA$($q$)$ 모델
MA$($q$)$ 모델은 q개의 이전 시점의 예측 오차 값을 사용하여 현재 값을 예측합니다. 수식으로는 다음과 같이 나타낼 수 있습니다.
$X_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}$

 

더보기

$X_t$: 현재 시점의 값
$\mu$: 시계열 데이터의 평균
$\epsilon_t$: 백색 잡음 $($White Noise$)$, 모델로 설명되지 않는 불규칙한 변동을 나타냅니다.
$\theta_1, \theta_2, \cdots, \theta_q$: MA 모델의 계수 파라미터로, 각각 이전 시점의 예측 오차를 조절하는 역할을 합니다.
$\epsilon_{t-1}, \epsilon_{t-2}, \cdots, \epsilon_{t-q}$: 현재 시점의 예측 오차와 q개의 이전 예측 오차 값들
이 모델에서 $\theta_1, \theta_2, \cdots, \theta_q$의 값을 추정하여 모델을 구성하게 됩니다. 모델을 통해 예측을 수행할 때는 백색 잡음에 대한 예측 오차를 고려하여 예측값을 조정합니다. 마찬가지로 모델의 예측 성능을 평가하거나 모델 선택을 위해서는 모델의 계수와 백색 잡음의 특성을 고려한 평가 지표나 기준을 사용해야 합니다.



6. ARMA$($p, q$)$ 모델 및 ARIMA 모델

- ARMA$($p, q$)$ 모델: AR 모델과 MA 모델을 결합한 ARMA 모델은 시계열 데이터의 자기회귀와 이동평균을 모두 고려한 모델입니다. ARMA$($p, q$)$ 모델은 과거 값과 예측 오차를 모두 고려하여 현재 값을 예측합니다. 이 모델은 시계열 데이터의 자기회귀와 불규칙한 변동을 모두 모델링할 수 있는 장점을 가지고 있습니다.

 

$$X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}$$

 

더보기

- $X_t$: 현재 시점의 값
- $c$: 상수항 (옵션)
- $\phi_1, \phi_2, \ldots, \phi_p$: AR 모델의 계수
- $\epsilon_t$: 현재 시점의 예측 오차 $($평균이 0인 백색 잡음$)$
- $\theta_1, \theta_2, \ldots, \theta_q$: MA 모델의 계수

 


ARIMA$($p, d, q$)$ 모델: ARIMA 모델은 Autoregressive Integrated Moving Average의 약자로, AR 모델과 MA 모델에 차분$($Difference$)$을 결합한 모델입니다. 차분은 데이터의 비정상성을 제거하고 정상성을 확보하는데 사용되며, p는 AR 모델의 차수, d는 차분의 차수, q는 MA 모델의 차수를 의미합니다. 

 

- p: AR 모델의 차수 $($자기회귀 모델에서 몇 시점 전의 값을 사용할지 결정$)$
- d: 차분$($Difference$)$의 차수 $($데이터의 비정상성을 제거하기 위해 몇 차분을 수행할지 결정$)$
- q: MA 모델의 차수 $($이동평균 모델에서 몇 시점 전의 예측 오차를 사용할지 결정$)$

 

$$\text{ARIMA}(p,d,q) = X_t - X_{t-d} = c + \phi_1 (X_{t-1} - X_{t-1-d}) + \cdots + \phi_p (X_{t-p} - X_{t-p-d}) + \epsilon_t + \theta_1 \epsilon_{t-1} + \cdots + \theta_q \epsilon_{t-q}$$

더보기

- $X_t - X_{t-d}$: 차분된 시계열 데이터 $($정상성 데이터$)$
- 나머지 변수들은 ARMA(p, q) 모델의 수식과 동일하게 설명됩니다.

 

 

ARIMA 모델은 ACF(Autocorrelation Function)와 PACF(Partial Autocorrelation Function)를 분석하여 최적의 p, d, q 값을 결정하는데 사용됩니다. ACF와 PACF는 시계열 데이터의 자기상관성과 부분 자기상관성을 확인하는데 도움을 주며, 이를 통해 모델의 차수를 선택하는데 도움이 됩니다. ARIMA 모델은 정상성을 갖춘 시계열 데이터에 대해 다양한 예측과 분석 작업에 활용됩니다.

 

추가로 계절성 패턴을 고려한 SARIMA도 존재합니다.

 

 

7. 정보 기준: AIC와 BIC

AIC$($Akaike's Information Criterion$)$: AIC는 모델 선택을 위한 정보 기준 중 하나로, 모델의 적합도와 복잡성을 고려하여 모델을 평가하고 비교하는 데 사용됩니다. AIC는 작을수록 더 좋은 모델로 판단합니다.

BIC$($Bayesian Information Criterion$)$: BIC는 AIC와 유사한 정보 기준으로, 모델 선택에 활용됩니다. BIC는 AIC와 달리 모델의 복잡성에 페널티를 부여하여 과적합을 방지하는데 더 초점을 둡니다.


8. 성능 평가 지표

- 평균 제곱 오차 $($Mean Squared Error, MSE$)$: 예측값과 실제 관측값 사이의 평균 제곱 오차를 계산하여 모델의 예측 정확도를 평가합니다. 작은 MSE 값은 더 정확한 예측을 나타냅니다.

- 평균 절대 오차 $($Mean Absolute Error, MAE$)$: 예측값과 실제 관측값 사이의 평균 절대 오차를 계산하여 모델의 예측 정확도를 평가합니다. 작은 MAE 값은 더 정확한 예측을 나타냅니다.

- 결정 계수 $($Coefficient of Determination, R-squared$)$: 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타내는 지표입니다. R-squared 값은 0에서 1 사이의 값을 가지며, 높을수록 모델의 설명력이 좋다고 판단할 수 있습니다.

- ADF 검정 $($ADF Test$)$: Augmented Dickey-Fuller 검정은 시계열 데이터의 정상성을 검정하는 방법 중 하나입니다. ADF 검정은 데이터의 정상성 여부를 판단하는데 도움을 줍니다.