본문 바로가기

728x90

시계열

(3)
[통계] Day 4-2 시계열 데이터 전처리 1. 결측치 처리의 중요성 시계열 데이터 분석에서 결측치 처리는 데이터 왜곡 방지와 예측 정확도 향상을 위해 매우 중요한 단계입니다. 결측치가 존재하면 실제 데이터의 패턴과 특성을 왜곡시킬 수 있으며, 이로 인해 예측 모델의 성능에도 부정적인 영향을 미칠 수 있습니다. 2. 결측치 위치 확인 방법 결측치 처리에 앞서 데이터셋에서 결측치가 어느 위치에 있는지 확인하는 것이 필요합니다. 이를 위해 다음과 같은 방법들을 사용할 수 있습니다: - 데이터셋 요약 정보 확인: info$($$)$, describe$($$)$ 메소드를 사용하여 각 열의 결측치 여부와 데이터 형식 확인 - 시각화: 히트맵이나 누락 데이터 플롯을 활용하여 결측치가 어떤 패턴으로 분포하는지 시각적으로 확인 - 조건식을 활용한 필터링: Pa..
[통계] Day 3-1 상관 분석 데이터 분석과 통계 분야에서 중요한 개념 1. 상관 분석 $($Correlation Analysis$)$: - 변수 간의 관련성을 측정하는 통계 기법. - 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨. - 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음. 2. 피어슨 계수 $($Pearson Correlation Coefficient$)$: - 두 연속형 변수 간의 선형 상관관계를 측정하는 방법. - -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄. - 피어슨 상관계수 공식: \[ r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i..
[통계] Day 2-2 데이터 분석 방법 데이터 분석의 다양한 방법과 도구 데이터 분석은 수많은 방법과 도구를 활용하여 다양한 유형의 데이터를 이해하고 해석하는 프로세스입니다. 다양한 데이터 유형에 대한 분석 기법을 알아보고, 그에 대한 간략한 설명을 제공하겠습니다. 수치형 데이터 분석 1. QQ-Plot: 정규 분포 가정을 확인하는 시각화 도구입니다. 분석 대상 데이터의 분포와 정규 분포의 이론적 분포를 비교하여 정규성을 판단합니다. 2. t-검정: 두 집단 간 평균 차이를 검정하는 통계적 방법입니다. 일반적으로 두 그룹의 평균이 유의미한 차이가 있는지 검증합니다. 예$)$ 두 가지 신약의 효과를 비교하고자 할 때 사용됩니다. 한 그룹에는 신약 A를, 다른 그룹에는 신약 B를 투여하고 각 그룹의 치료 효과를 비교하려고 합니다. t-검정을 통해..