본문 바로가기

728x90

시각화

(3)
[통계] Day 4-2 시계열 데이터 전처리 1. 결측치 처리의 중요성 시계열 데이터 분석에서 결측치 처리는 데이터 왜곡 방지와 예측 정확도 향상을 위해 매우 중요한 단계입니다. 결측치가 존재하면 실제 데이터의 패턴과 특성을 왜곡시킬 수 있으며, 이로 인해 예측 모델의 성능에도 부정적인 영향을 미칠 수 있습니다. 2. 결측치 위치 확인 방법 결측치 처리에 앞서 데이터셋에서 결측치가 어느 위치에 있는지 확인하는 것이 필요합니다. 이를 위해 다음과 같은 방법들을 사용할 수 있습니다: - 데이터셋 요약 정보 확인: info$($$)$, describe$($$)$ 메소드를 사용하여 각 열의 결측치 여부와 데이터 형식 확인 - 시각화: 히트맵이나 누락 데이터 플롯을 활용하여 결측치가 어떤 패턴으로 분포하는지 시각적으로 확인 - 조건식을 활용한 필터링: Pa..
[통계] Day 4-1 시계열 데이터 분석 1. 시계열 데이터 시계열 데이터는 시간에 따라 기록된 데이터로, 주가, 기후, 판매량 등 다양한 분야에서 사용되며 중요한 정보를 제공합니다. 시계열 데이터 분석은 데이터의 패턴을 파악하고 미래 예측에 활용하는 중요한 기법입니다. 2. 시계열 데이터의 특성과 구성 요소 - 시간 의존성$($Time Depenency$)$ - 계절성$($Seasonality$)$ - 추세$($Trend$)$ - 자기 상관성$($Autocorrelation$)$ - 불규칙성$($Irregularity$)$ 시계열 데이터는 다양한 패턴과 특성을 가지고 있습니다. 추세는 장기적인 증감 경향을 의미하며, 계절성은 일정한 주기마다 반복되는 변동을 의미합니다. 주기는 주기적으로 발생하는 변동을 나타내며, 불규칙성은 예측 모델에 포함되..
[DP] - 4 데이터 분석 및 시각화 데이터 분석의 기본 사항 데이터 분석은 기업이 의사 결정에 활용할 수 있는 인사이트를 발견하는 과정입니다. 대규모 데이터 웨어하우징, 분석 데이터 저장소, 데이터 시각화 등의 단계로 구성됩니다. 대규모 데이터 웨어하우징 대규모 데이터 웨어하우징은 데이터를 효과적으로 수집하고 처리하여 분석에 활용하기 위한 시스템입니다. - 데이터 수집 및 처리: ETL$($추출, 변환, 로드$)$ 또는 ELT$($추출, 로드, 변환$)$ 오케스트레이션을 통해 데이터를 수집하고 처리합니다. 대규모 데이터의 정리와 재주성을 위한 분산 처리가 핵심입니다. - 분석 데이터 저장소: 데이터 웨어하우스와 데이터 레이크로 데이터를 저장합니다. 데이터 웨어하우스는 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하며, 데이터 레이크는 비정..