본문 바로가기

728x90

데이터분석

(4)
[통계] Day 1-4 이상치, 상관관계, 카이제곱 검정 데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다. 1. 이상치 $($Outlier$)$ 이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다. 상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다: 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값 제1사분위수..
[통계] Day 1-3 데이터 형태: 연속형, 이산형, 범주형 데이터의 종류와 통계적 분석 방법 데이터는 다양한 형태로 존재하며, 이를 통계적으로 분석함으로써 유용한 정보와 인사이트를 얻을 수 있습니다. 데이터의 종류에 따라 적절한 통계적 분석 방법이 다르며, 데이터의 특성을 파악하는 것이 중요합니다. 여기에서는 데이터의 종류와 통계적 분석 방법에 대해 살펴보겠습니다. 1. 연속형 데이터(Continuous data) 연속형 데이터는 연속적인 값을 가지며, 정확한 수치로 측정됩니다. 예를 들어 온도, 길이, 시간 등이 연속형 데이터에 해당합니다. 이러한 데이터는 다양한 분포를 가지며, 주로 정규 분포를 따르는 경우가 많습니다. 데이터의 중심 경향성과 분산을 파악하여 이상치를 탐지하거나 추론 분석에 활용합니다. 2. 이산형 데이터(Discrete data) 이산형 데..
[통계] Day 1-2 AI 통계 서비스 데이터 분석은 현대 사회에서 광범위하게 활용되며, 다양한 분야에서 의사 결정과 문제 해결에 필수적인 도구로 사용되고 있습니다. 데이터 분석의 과정은 데이터 수집부터 모델링까지 다양한 단계로 구성됩니다. 이를 통해 중요한 인사이트를 발견하고 더 나은 결과를 얻을 수 있습니다. 데이터 수집 및 전처리 데이터 분석의 첫 단계는 데이터를 수집하고 전처리하는 것입니다. 데이터 품질을 확인하고, 결측치, 이상치, 중복 등의 문제를 처리하며, 필요한 변수를 추출합니다. 데이터의 형식 변환도 필요한 경우에 수행됩니다. 기술통계 분석 기술통계 분석은 데이터의 기본적인 특성과 패턴을 파악하기 위한 단계입니다. 평균, 분산, 상관관계 등과 같은 통계량을 계산하여 데이터의 특성을 정량화합니다. 추론통계 분석 추론통계 분석은 ..
[통계] Day 1-1 데이터 분석 통계는 현대 사회에서 중요한 결정과 분석에 필수적인 도구로 사용되는 핵심 분야입니다. 이를 통해 데이터를 효과적으로 활용하여 패턴, 관계, 경향을 파악할 수 있으며, 이로부터 인사이트를 얻어 비즈니스 전략 수립, 문제 해결, 의사 결정 등 다양한 영역에서 큰 도움을 받을 수 있습니다. 데이터 통계는 데이터에 기반하여 정보를 추출하고 분석하는 과정입니다. 데이터는 관찰, 실험, 조사 등을 통해 수집된 정보를 말하며, 이러한 데이터는 크게 수량적 데이터와 질적 데이터로 구분됩니다. - 수량적 데이터: 숫자로 표현되는 데이터로, 예를 들면 금액, 시간, 온도 등이 있습니다. - 질적 데이터: 범주 혹은 카테고리로 표현되는 데이터로, 예를 들면 성별, 제품 카테고리, 학력 수준 등이 있습니다. 분포와 패턴 통계..