본문 바로가기

728x90

IT/AI

(39)
[통계] Day 7-1 데이터 분석: 군집 분석 군집 분석은 비슷한 특성을 가진 데이터를 그룹으로 분류하는 데이터 마이닝 기법입니다. 데이터의 패턴과 유사성을 파악하며 이를 기반으로 그룹 간의 차이를 이해하는데 사용됩니다. 군집 분석은 고객 세그먼테이션, 행동 패턴 분석, 이미지 처리, 생물학적 분류 등 다양한 분야에서 활용되며 데이터를 구조화하고 파악하는 중요한 도구로 사용됩니다. 1. 목적 - 데이터 탐색과 시각화: 데이터의 복잡성을 이해하고 시각화하여 구조를 파악합니다. - 성질과 특성 파악: 데이터 그룹 간의 차이와 공통된 특성을 분석하여 인사이트를 도출합니다. - 데이터 전처리와 변수 선택: 변수들의 중요성을 평가하고 중복되거나 불필요한 변수를 제거합니다. - 예측 및 분류: 군집 분석을 통해 얻은 정보를 활용하여 예측 모델을 개발하거나 분류..
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] 1. 공분산과 상관 행렬 공분산은 두 변수 간의 관계를 나타내는 통계적 지표입니다. 공분산은 변수 간의 편차를 계산하여 그 값들의 평균을 내는 과정으로 계산됩니다. 공분산 값이 0보다 크면 두 변수가 함께 증가하는 경향이 있으며, 0보다 작으면 하나의 변수가 증가할 때 다른 변수가 감소하는 경향이 있습니다. 하지만 공분산 값만으로는 변수의 단위에 의해 영향을 받아 해석이 어려운 경우가 있습니다. 상관 행렬은 공분산 행렬을 표준화하여 얻은 행렬로, 변수들 간의 상관 관계를 나타내는 지표입니다. 상관 행렬의 값은 -1과 1 사이에 위치하며, 1에 가까울수록 강한 양의 선형 상관관계를 나타내고, -1에 가까울수록 강한 음의 선형 상관관계를 나타냅니다. 상관 계수가 0에 가까울수록 두 변수 사이에는 선형 관계가..
[통계] Day 5-2 시계열 데이터 분석 모델링 1. 시계열 데이터의 기본 가정 시계열 데이터 분석을 시작하기 전에 이해해야 할 기본 가정이 있습니다. 이러한 가정들은 데이터의 특성을 이해하고 모델링을 진행하는 데 도움을 줍니다. - 정상성 가정: 정상성은 시계열 데이터의 통계적 특성이 시간에 따라 일정하게 유지되는 것을 의미합니다. 이는 데이터의 평균과 분산이 시간에 따라 변하지 않으며, 시간에 따른 패턴이 일정하다는 것을 의미합니다. 정상성 가정을 만족하는 데이터는 예측이나 분석에 더욱 신뢰할 수 있습니다. - 독립성 가정: 시계열 데이터는 시간에 따른 의존성을 가지기 때문에 이전 시점의 데이터가 현재 시점의 데이터에 영향을 줄 수 있습니다. 따라서 전통적인 독립성 가정은 성립되지 않습니다. 이는 데이터의 특성을 고려하며 모델을 선택하고 구성할 때..
[통계] Day 5-1 시계열 데이터의 정규화 1. 정규화 변환의 필요성 - 데이터 스케일 조정의 중요성: 다양한 변수의 값 범위를 조정하여 모델이 각 변수에 공정하게 영향을 받도록 함. - 정규 분포 가정과 그 효과: 정규 분포를 따르는 데이터로 변환하여 통계적 분석을 용이하게 함. - 이상치 처리와의 관련성: 이상치가 정규화에 영향을 줄 수 있으며, 변환 후 이상치의 영향을 줄이기 위해 사용. - 시계열 패턴 강조와 모델 안정성: 시계열 패턴을 더 잘 드러나게 하며 모델의 안정성과 예측 성능 향상을 도모. 2. 주요 정규화 변환 방법 - 최소-최대 정규화 $($Min-Max Normalization$)$: 데이터 값을 최소값과 최대값 사이의 범위로 변환, 이상치에 민감하지 않은 경우 사용. $X_{\text{new}} = \frac{X - X_{..
[통계] Day 4-3 시계열 데이터의 이상치 시계열 이상치 시계열 데이터에서 이상치란 다른 관측치들과 동떨어진 값으로, 잘못된 측정, 데이터 수집 오류, 자연적인 이벤트의 특이한 결과 등의 요인으로 발생합니다. 이상치는 데이터 분석과 예측에 부정적인 영향을 미칠 수 있으며, 이를 감지하고 처리하는 것이 중요합니다. 이상치 탐지 이상치 탐지는 데이터의 품질을 향상시키는 중요한 단계입니다. 이상치가 제거되지 않으면 모델의 정확성이 떨어지고, 예측 결과에 신뢰성이 떨어질 수 있습니다. 이상치 탐지는 데이터 분석에서 정확한 정보를 얻는 핵심 과정 중 하나입니다. 또한 이상치 패턴을 파악하여 이를 원인 분석에 활용할 수 있습니다. 방법 1. 이동 평균과 이동 표준 편차: 이동 평균은 데이터 포인트의 이전 N개의 포인트의 평균을 계산하는 방법입니다. 이동 표..
[통계] Day 4-2 시계열 데이터 전처리 1. 결측치 처리의 중요성 시계열 데이터 분석에서 결측치 처리는 데이터 왜곡 방지와 예측 정확도 향상을 위해 매우 중요한 단계입니다. 결측치가 존재하면 실제 데이터의 패턴과 특성을 왜곡시킬 수 있으며, 이로 인해 예측 모델의 성능에도 부정적인 영향을 미칠 수 있습니다. 2. 결측치 위치 확인 방법 결측치 처리에 앞서 데이터셋에서 결측치가 어느 위치에 있는지 확인하는 것이 필요합니다. 이를 위해 다음과 같은 방법들을 사용할 수 있습니다: - 데이터셋 요약 정보 확인: info$($$)$, describe$($$)$ 메소드를 사용하여 각 열의 결측치 여부와 데이터 형식 확인 - 시각화: 히트맵이나 누락 데이터 플롯을 활용하여 결측치가 어떤 패턴으로 분포하는지 시각적으로 확인 - 조건식을 활용한 필터링: Pa..
[통계] Day 4-1 시계열 데이터 분석 1. 시계열 데이터 시계열 데이터는 시간에 따라 기록된 데이터로, 주가, 기후, 판매량 등 다양한 분야에서 사용되며 중요한 정보를 제공합니다. 시계열 데이터 분석은 데이터의 패턴을 파악하고 미래 예측에 활용하는 중요한 기법입니다. 2. 시계열 데이터의 특성과 구성 요소 - 시간 의존성$($Time Depenency$)$ - 계절성$($Seasonality$)$ - 추세$($Trend$)$ - 자기 상관성$($Autocorrelation$)$ - 불규칙성$($Irregularity$)$ 시계열 데이터는 다양한 패턴과 특성을 가지고 있습니다. 추세는 장기적인 증감 경향을 의미하며, 계절성은 일정한 주기마다 반복되는 변동을 의미합니다. 주기는 주기적으로 발생하는 변동을 나타내며, 불규칙성은 예측 모델에 포함되..
[NLP] Word Embedding 기법 [기초] Word Embedding 기법 소개 자연어 처리$($Natural Language Processing, NLP$)$ 분야에서 텍스트 데이터를 다루는 데 있어서 핵심적인 개념 중 하나가 Word Embedding입니다. Word Embedding은 단어를 벡터로 표현하는 기법으로, 컴퓨터가 텍스트 데이터를 더 효과적으로 이해하고 처리할 수 있게 해주는 중요한 도구입니다. Word Embedding이란? Word Embedding은 단어를 고차원의 실수 벡터로 매핑하는 것을 의미합니다. 이를 통해 단어 간의 의미적 유사성을 벡터 공간에서 측정할 수 있습니다. 예를 들어, "king"과 "queen"이라는 두 단어가 비슷한 벡터 공간 상에 가깝게 위치한다면, 이들은 의미적으로 유사한 관계를 갖고 있다고 볼 ..
[통계] Day 3-3 데이터 분포 가정과 가정 검토 데이터 분석을 위해 확률 분포 모형을 선택하고 분석하는 과정에서 데이터 분포의 가정을 세우고 검토하는 과정은 매우 중요합니다. 올바른 가정을 세우고 검토하지 않으면 잘못된 결과를 도출할 수 있습니다. 이를 위해 데이터 분포 가정과 가정 검토에 대해 알아보겠습니다. 1. 데이터 분포 가정 데이터 분석을 위해서는 데이터가 어떤 확률 분포를 따르는지를 가정하는 것이 필요합니다. 예를 들어, 데이터가 정규 분포, 이항 분포, 포아송 분포와 같은 특정한 확률 분포를 따른다고 가정합니다. 데이터 분포의 모양과 특징을 파악하여 적절한 확률 분포 모형을 선택합니다. 이 가정에 따라 모수 추정 및 통계적 검정을 수행하여 데이터를 분석합니다. 2. 가정 검토 데이터 분포 가정을 세우고 분석을 진행할 때, 이 가정이 실제 ..
[통계] Day 3-2 분포 모형에 대한 이해 분포 모형은 확률 변수가 가질 수 있는 값들의 빈도나 가능성을 나타내는 함수입니다. 이 함수를 통해 우리는 확률 변수가 특정 값일 확률을 예측하거나 분석할 수 있습니다. 확률 분포에는 확률밀도함수, 누적분포, 확률 질량함수와 같은 여러가지 개념이 포함되어 있습니다. 이를 통해 우리는 다양한 현상과 데이터의 분포를 설명하고 예측하는데 활용할 수 있습니다. 1. 확률 분포의 개념과 종류 확률 분포는 확률 변수의 가능한 값들과 그 값들이 나타날 확률을 나타내는 함수입니다. 데이터 분석에서 확률 분포는 중요한 개념으로, 데이터의 특성과 패턴을 파악하는 데 도움을 줍니다. 다양한 현상과 데이터를 설명하는 확률 분포의 종류가 있으며, 각각의 분포는 특정한 형태와 특징을 가지고 있습니다. 1-1. 일반적인 확률 분포..
[통계] Day 3-1 상관 분석 데이터 분석과 통계 분야에서 중요한 개념 1. 상관 분석 $($Correlation Analysis$)$: - 변수 간의 관련성을 측정하는 통계 기법. - 두 변수 사이의 선형 관계 정도를 파악하며, 두 변수 간의 상관계수로 표현됨. - 피어슨 상관계수, 스피어만 상관계수, 켄달의 타우 등이 있음. 2. 피어슨 계수 $($Pearson Correlation Coefficient$)$: - 두 연속형 변수 간의 선형 상관관계를 측정하는 방법. - -1과 1 사이의 값을 가지며, 0은 상관관계가 없음을 나타냄. - 피어슨 상관계수 공식: \[ r = \frac{\sum{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum{(x_i - \bar{x})^2} \cdot \sum{(y_i..
[통계] Day 2-3 가설 검정과 분석 방법 가설검정은 통계학에서 중요한 개념으로, 데이터를 분석하여 특정 가설이 맞는지 여부를 결정하는 과정입니다. 가설검정은 아래와 같은 핵심 요소들로 구성됩니다. 귀무가설과 대립가설 - 귀무가설$($null hypothesis$)$: 연구자가 처음부터 기각하려는 가설로, 일반적으로 무의미한 차이나 효과가 없다는 가정입니다. 귀무가설은 유의수준$($alpha$)$과 함께 정의되며, 가설 검정 결과에 따라 기각 여부가 결정됩니다. - 대립가설$($alternative hypothesis$)$: 연구자가 입증하려는 가설로, 일반적으로 귀무가설과 반대되는 주장을 나타냅니다. 대립가설은 단측$($한 방향으로의 차이$)$ 또는 양측$($양방향으로의 차이$)$으로 설정됩니다. 유의수준과 p-값 - 유의수준$($alpha$)..