본문 바로가기

728x90

이상치

(3)
[통계] Day 4-3 시계열 데이터의 이상치 시계열 이상치 시계열 데이터에서 이상치란 다른 관측치들과 동떨어진 값으로, 잘못된 측정, 데이터 수집 오류, 자연적인 이벤트의 특이한 결과 등의 요인으로 발생합니다. 이상치는 데이터 분석과 예측에 부정적인 영향을 미칠 수 있으며, 이를 감지하고 처리하는 것이 중요합니다. 이상치 탐지 이상치 탐지는 데이터의 품질을 향상시키는 중요한 단계입니다. 이상치가 제거되지 않으면 모델의 정확성이 떨어지고, 예측 결과에 신뢰성이 떨어질 수 있습니다. 이상치 탐지는 데이터 분석에서 정확한 정보를 얻는 핵심 과정 중 하나입니다. 또한 이상치 패턴을 파악하여 이를 원인 분석에 활용할 수 있습니다. 방법 1. 이동 평균과 이동 표준 편차: 이동 평균은 데이터 포인트의 이전 N개의 포인트의 평균을 계산하는 방법입니다. 이동 표..
[통계] Day 1-4 이상치, 상관관계, 카이제곱 검정 데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다. 1. 이상치 $($Outlier$)$ 이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다. 상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다: 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값 제1사분위수..
[통계] Day 1-3 데이터 형태: 연속형, 이산형, 범주형 데이터의 종류와 통계적 분석 방법 데이터는 다양한 형태로 존재하며, 이를 통계적으로 분석함으로써 유용한 정보와 인사이트를 얻을 수 있습니다. 데이터의 종류에 따라 적절한 통계적 분석 방법이 다르며, 데이터의 특성을 파악하는 것이 중요합니다. 여기에서는 데이터의 종류와 통계적 분석 방법에 대해 살펴보겠습니다. 1. 연속형 데이터(Continuous data) 연속형 데이터는 연속적인 값을 가지며, 정확한 수치로 측정됩니다. 예를 들어 온도, 길이, 시간 등이 연속형 데이터에 해당합니다. 이러한 데이터는 다양한 분포를 가지며, 주로 정규 분포를 따르는 경우가 많습니다. 데이터의 중심 경향성과 분산을 파악하여 이상치를 탐지하거나 추론 분석에 활용합니다. 2. 이산형 데이터(Discrete data) 이산형 데..