Processing math: 100%
본문 바로가기

IT/AI

[통계] Day 2-2 데이터 분석 방법

728x90

데이터 분석의 다양한 방법과 도구

데이터 분석은 수많은 방법과 도구를 활용하여 다양한 유형의 데이터를 이해하고 해석하는 프로세스입니다. 다양한 데이터 유형에 대한 분석 기법을 알아보고, 그에 대한 간략한 설명을 제공하겠습니다.

 


수치형 데이터 분석
1. QQ-Plot: 정규 분포 가정을 확인하는 시각화 도구입니다. 분석 대상 데이터의 분포와 정규 분포의 이론적 분포를 비교하여 정규성을 판단합니다.

타이타닉 탑승객들의 연령이 대체로 정규분포를 따라감을 보여줌


2. t-검정: 두 집단 간 평균 차이를 검정하는 통계적 방법입니다. 일반적으로 두 그룹의 평균이 유의미한 차이가 있는지 검증합니다.

) 두 가지 신약의 효과를 비교하고자 할 때 사용됩니다. 한 그룹에는 신약 A를, 다른 그룹에는 신약 B를 투여하고 각 그룹의 치료 효과를 비교하려고 합니다. t-검정을 통해 두 그룹 간 평균 차이가 유의미한지 검정할 수 있습니다.

 

3. 분산/상관/회귀분석: 분산분석은 그룹 간의 평균 차이를 분석하는 방법입니다. 상관분석은 변수 간 관계를 분석하며, 회귀분석은 독립 변수와 종속 변수 간의 관계를 모델링합니다.

 


범주형 데이터 분석
1. 도수분포표: 범주형 변수의 각 값이 나타나는 빈도를 요약한 표입니다. 데이터 분포를 파악하는데 사용됩니다.

) 학생들의 학업 성적을 파악하기 위해 A, B, C, D, F 학점으로 구분한 경우, 각 학점별 학생 수를 세어 도수분포표를 작성합니다. 이를 통해 학점 분포와 학생들의 성적 분포를 확인할 수 있습니다.


2. 카이제곱 검정: 두 범주형 변수 간의 관련성을 검정하는 방법입니다. 예를 들어, 두 가지 특성이 서로 독립인지 아니면 연관이 있는지를 검증합니다.
) 의료 분야에서 치료법 A와 치료법 B 중 어떤 치료법이 환자들에게 더 효과적인지 검정하고자 합니다. 환자들을 두 가지 치료법으로 나누어 그 결과를 관찰한 후, 카이제곱 검정을 통해 두 치료법 간의 효과 차이가 유의미한지 검정합니다.


3. 비: 범주형 데이터 간의 비율을 비교하는 방법입니다. 두 그룹의 비율이 유의미한 차이가 있는지 검정합니다.

 


순서형 데이터 분석
1. 백분위(중심 경향성): 데이터의 상대적 위치를 파악하는데 사용됩니다. 데이터의 백분위수는 해당 값이 전체 데이터 중 어디에 위치하는지를 나타냅니다.


2. 사분위간(분산 경향성): 데이터의 중앙값과 사분위수를 통해 데이터의 분산과 분포를 파악합니다.

생존한 그룹과 사망한 그룹 간 운임요금의 분포


3. 밀도그래프: 데이터의 분포를 시각화하는 도구로, 히스토그램보다 부드러운 곡선으로 데이터 분포를 나타냅니다.

 


시계열 데이터 분석
1. 자기상관(ACF) 및 부분자기상관(PACF) 분석: 시계열 데이터에서 자기상관과 부분자기상관을 분석하여 시계열의 패턴과 특성을 파악합니다.

더보기

ACF와 PACF는 시계열 데이터 분석에서 중요한 개념으로, 시계열 데이터의 자기상관과 부분자기상관을 파악하는데 사용됩니다.

ACF (Autocorrelation Function, 자기상관 함수):
ACF는 시계열 데이터의 자기상관을 분석하기 위한 함수입니다. 시계열 데이터의 자기상관은 현재 시점의 데이터와 이전 시점의 데이터 간의 관련성을 측정합니다. ACF는 데이터와 자신의 시차(lag)에 대한 상관관계를 계산하며, 시차가 0일 경우에는 데이터와 자기 자신과의 상관계수가 1이 됩니다.
ACF의 그래프는 시차에 따른 자기상관 값을 시각적으로 보여주며, 시계열 데이터의 패턴과 주기를 파악하는데 도움을 줍니다. 만약 ACF 그래프에서 시차가 증가함에 따라 지속적인 상관관계가 있으면, 시계열 데이터가 자기상관성을 가지고 있다고 볼 수 있습니다.

PACF (Partial Autocorrelation Function, 부분자기상관 함수):
PACF는 시계열 데이터의 부분자기상관을 분석하기 위한 함수입니다. 부분자기상관은 두 변수 사이의 상관성을 다른 변수들의 영향을 배제하고 분석하는 것을 의미합니다. 
PACF는 다른 시차의 데이터가 미치는 영향을 배제한 후, 현재 시점의 데이터와 특정 시차의 데이터 간의 상관계수를 계산합니다. 이렇게 하면 시계열 데이터에서 특정 시차의 영향을 정확하게 파악할 수 있습니다.
PACF의 그래프는 시차에 따른 부분자기상관 값을 보여주며, 시차에 따른 부분자기상관 값이 어떻게 감소하는지를 확인할 수 있습니다. 이를 통해 시계열 데이터의 AR(AutoRegressive) 모델 차수를 결정하는데 도움을 줍니다.

ACF와 PACF는 ARIMA(AutoRegressive Integrated Moving Average) 모델을 구축하거나 시계열 데이터의 패턴과 주기를 파악하는데 중요한 도구로 사용됩니다.

2. 시계열 분석: 시간에 따른 데이터의 패턴과 트렌드를 분석합니다.

3. 이동평균법: 시계열 데이터에서 평균값을 일정 기간 동안 이동시키며 데이터의 트렌드를 파악하는 방법입니다.

4. 지수평활법: 시계열 데이터에 지수 가중치를 적용하여 데이터의 트렌드를 파악하는 방법입니다.

 


공간 데이터 분석
1. 모라노지수: 모라노지수는 지리적으로 가까운 지역들 간의 공간적 상관성을 파악하는 지수입니다. 이 지수는 데이터가 지리적으로 얼마나 유사한 지역들과 연관성을 가지는지를 측정하여 지역 간의 공간 패턴을 이해하는 데 사용됩니다. 모라노지수는 특정 변수의 공간적 분포를 평가하고, 해당 변수가 어떻게 지리적으로 집중되어 있는지를 분석하는데 활용됩니다. 모라노지수 값은 -1부터 1까지의 범위를 가지며, 양의 값은 비슷한 속성을 가진 지역들이 서로 가깝게 모여있음을 나타내며, 음의 값은 비슷한 속성을 가진 지역들이 서로 떨어져있음을 나타냅니다.

2. 이질성: 이질성은 지역 간의 데이터 분포 차이를 파악하는 방법입니다. 이질성을 분석하면 서로 다른 지역들 간에 특정 변수의 분포가 얼마나 차이가 있는지를 평가할 수 있습니다. 이질성 분석은 지역의 특성을 비교하고 각 지역의 독특한 특징을 이해하는데 도움을 줍니다. 이질성을 파악하는 것은 지역 간의 차이를 고려하여 적절한 정책이나 전략을 수립하는데 중요한 정보를 제공합니다.

3. 지역클러스터: 지역클러스터는 지리 정보를 활용하여 유사한 지역 집단을 식별하고 지역 별 토지 사용 특성을 비교하는 방법입니다. 지역클러스터 분석은 지역들을 그룹으로 묶어서 각 그룹의 유사성과 차이점을 파악하는데 사용됩니다. 이를 통해 지역 간에 공통된 특성을 가진 클러스터를 찾거나 특정 지역이 어떤 클러스터에 속하는지를 판별할 수 있습니다. 이를 통해 지역의 토지 사용 패턴, 경제 활동, 인구 특성 등을 비교하고 정책 수립에 활용할 수 있습니다.


텍스트 데이터 분석
1. 전처리: 텍스트 데이터를 정제하고 토큰화하는 작업입니다. 불필요한 특수문자를 제거하고 단어를 토큰화하여 분석에 필요한 형태로 정제합니다.

2. 임베딩: 단어나 문장을 벡터 형태로 변환하는 작업입니다. 문장 내 단어를 벡터 형태로 변환하여 문장의 의미를 파악하고 유사한 단어를 그룹화합니다.
3. 분류: 텍스트를 주제 또는 카테고리에 따라 분류하는 작업입니다.

 


이미지 데이터 분석
1. CNN: 합성곱 신경망(Convolutional Neural Network)은 이미지 분석에 주로 사용되는 딥러닝 기법입니다. 이미지의 특징을 추출하고 분류하는 데 사용됩니다.

 


다양한 분석 기법과 도구를 활용하여 데이터를 분석하면, 데이터의 특성을 보다 정확하게 이해하고 의사 결정에 활용할 수 있습니다.