통계 (6) 썸네일형 리스트형 [통계] Day 4-3 시계열 데이터의 이상치 시계열 이상치 시계열 데이터에서 이상치란 다른 관측치들과 동떨어진 값으로, 잘못된 측정, 데이터 수집 오류, 자연적인 이벤트의 특이한 결과 등의 요인으로 발생합니다. 이상치는 데이터 분석과 예측에 부정적인 영향을 미칠 수 있으며, 이를 감지하고 처리하는 것이 중요합니다. 이상치 탐지 이상치 탐지는 데이터의 품질을 향상시키는 중요한 단계입니다. 이상치가 제거되지 않으면 모델의 정확성이 떨어지고, 예측 결과에 신뢰성이 떨어질 수 있습니다. 이상치 탐지는 데이터 분석에서 정확한 정보를 얻는 핵심 과정 중 하나입니다. 또한 이상치 패턴을 파악하여 이를 원인 분석에 활용할 수 있습니다. 방법 1. 이동 평균과 이동 표준 편차: 이동 평균은 데이터 포인트의 이전 N개의 포인트의 평균을 계산하는 방법입니다. 이동 표.. [통계] Day 4-2 시계열 데이터 전처리 1. 결측치 처리의 중요성 시계열 데이터 분석에서 결측치 처리는 데이터 왜곡 방지와 예측 정확도 향상을 위해 매우 중요한 단계입니다. 결측치가 존재하면 실제 데이터의 패턴과 특성을 왜곡시킬 수 있으며, 이로 인해 예측 모델의 성능에도 부정적인 영향을 미칠 수 있습니다. 2. 결측치 위치 확인 방법 결측치 처리에 앞서 데이터셋에서 결측치가 어느 위치에 있는지 확인하는 것이 필요합니다. 이를 위해 다음과 같은 방법들을 사용할 수 있습니다: - 데이터셋 요약 정보 확인: info$($$)$, describe$($$)$ 메소드를 사용하여 각 열의 결측치 여부와 데이터 형식 확인 - 시각화: 히트맵이나 누락 데이터 플롯을 활용하여 결측치가 어떤 패턴으로 분포하는지 시각적으로 확인 - 조건식을 활용한 필터링: Pa.. [통계] Day 3-3 데이터 분포 가정과 가정 검토 데이터 분석을 위해 확률 분포 모형을 선택하고 분석하는 과정에서 데이터 분포의 가정을 세우고 검토하는 과정은 매우 중요합니다. 올바른 가정을 세우고 검토하지 않으면 잘못된 결과를 도출할 수 있습니다. 이를 위해 데이터 분포 가정과 가정 검토에 대해 알아보겠습니다. 1. 데이터 분포 가정 데이터 분석을 위해서는 데이터가 어떤 확률 분포를 따르는지를 가정하는 것이 필요합니다. 예를 들어, 데이터가 정규 분포, 이항 분포, 포아송 분포와 같은 특정한 확률 분포를 따른다고 가정합니다. 데이터 분포의 모양과 특징을 파악하여 적절한 확률 분포 모형을 선택합니다. 이 가정에 따라 모수 추정 및 통계적 검정을 수행하여 데이터를 분석합니다. 2. 가정 검토 데이터 분포 가정을 세우고 분석을 진행할 때, 이 가정이 실제 .. [통계] Day 3-2 분포 모형에 대한 이해 분포 모형은 확률 변수가 가질 수 있는 값들의 빈도나 가능성을 나타내는 함수입니다. 이 함수를 통해 우리는 확률 변수가 특정 값일 확률을 예측하거나 분석할 수 있습니다. 확률 분포에는 확률밀도함수, 누적분포, 확률 질량함수와 같은 여러가지 개념이 포함되어 있습니다. 이를 통해 우리는 다양한 현상과 데이터의 분포를 설명하고 예측하는데 활용할 수 있습니다. 1. 확률 분포의 개념과 종류 확률 분포는 확률 변수의 가능한 값들과 그 값들이 나타날 확률을 나타내는 함수입니다. 데이터 분석에서 확률 분포는 중요한 개념으로, 데이터의 특성과 패턴을 파악하는 데 도움을 줍니다. 다양한 현상과 데이터를 설명하는 확률 분포의 종류가 있으며, 각각의 분포는 특정한 형태와 특징을 가지고 있습니다. 1-1. 일반적인 확률 분포.. [통계] Day 2-2 데이터 분석 방법 데이터 분석의 다양한 방법과 도구 데이터 분석은 수많은 방법과 도구를 활용하여 다양한 유형의 데이터를 이해하고 해석하는 프로세스입니다. 다양한 데이터 유형에 대한 분석 기법을 알아보고, 그에 대한 간략한 설명을 제공하겠습니다. 수치형 데이터 분석 1. QQ-Plot: 정규 분포 가정을 확인하는 시각화 도구입니다. 분석 대상 데이터의 분포와 정규 분포의 이론적 분포를 비교하여 정규성을 판단합니다. 2. t-검정: 두 집단 간 평균 차이를 검정하는 통계적 방법입니다. 일반적으로 두 그룹의 평균이 유의미한 차이가 있는지 검증합니다. 예$)$ 두 가지 신약의 효과를 비교하고자 할 때 사용됩니다. 한 그룹에는 신약 A를, 다른 그룹에는 신약 B를 투여하고 각 그룹의 치료 효과를 비교하려고 합니다. t-검정을 통해.. [통계] Day 1-4 이상치, 상관관계, 카이제곱 검정 데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다. 1. 이상치 $($Outlier$)$ 이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다. 상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다: 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값 제1사분위수.. 이전 1 다음