본문 바로가기

728x90

데이터 시각화

(3)
[통계] Day 7-2 데이터 분석: 다변량 분석 다변량 분석은 여러 개의 독립 변수와 종속 변수 간의 관계를 분석하는 통계적 방법으로, 주로 독립 변수들이 종속 변수에 미치는 영향을 이해하고 예측 모델을 개발하는 데 활용됩니다. 이는 데이터의 탐색과 시각화, 변수의 특성과 성질 파악, 데이터 전처리와 변수 선택, 예측 및 분류 등 다양한 목적으로 활용됩니다. 데이터의 다양한 정보를 제공하며 변수 간의 상관 관계를 파악하는 데 유용하며, 또한 데이터의 차원을 축소하여 복잡성을 줄이고 모델을 개선하는 데에도 활용됩니다. 다변량 분석은 주로 회귀 분석, 다변량 분산 분석, 요인 분석, 주성분 분석 등의 기법을 포함하며, 시각화 기법으로는 산점도 행렬, 병렬 좌표, 히트맵, 다차원 척도법 등을 활용하여 변수들 간의 관계를 시각적으로 이해하고 패턴을 발견할 수..
[통계] Day 7-1 데이터 분석: 군집 분석 군집 분석은 비슷한 특성을 가진 데이터를 그룹으로 분류하는 데이터 마이닝 기법입니다. 데이터의 패턴과 유사성을 파악하며 이를 기반으로 그룹 간의 차이를 이해하는데 사용됩니다. 군집 분석은 고객 세그먼테이션, 행동 패턴 분석, 이미지 처리, 생물학적 분류 등 다양한 분야에서 활용되며 데이터를 구조화하고 파악하는 중요한 도구로 사용됩니다. 1. 목적 - 데이터 탐색과 시각화: 데이터의 복잡성을 이해하고 시각화하여 구조를 파악합니다. - 성질과 특성 파악: 데이터 그룹 간의 차이와 공통된 특성을 분석하여 인사이트를 도출합니다. - 데이터 전처리와 변수 선택: 변수들의 중요성을 평가하고 중복되거나 불필요한 변수를 제거합니다. - 예측 및 분류: 군집 분석을 통해 얻은 정보를 활용하여 예측 모델을 개발하거나 분류..
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] 1. 공분산과 상관 행렬 공분산은 두 변수 간의 관계를 나타내는 통계적 지표입니다. 공분산은 변수 간의 편차를 계산하여 그 값들의 평균을 내는 과정으로 계산됩니다. 공분산 값이 0보다 크면 두 변수가 함께 증가하는 경향이 있으며, 0보다 작으면 하나의 변수가 증가할 때 다른 변수가 감소하는 경향이 있습니다. 하지만 공분산 값만으로는 변수의 단위에 의해 영향을 받아 해석이 어려운 경우가 있습니다. 상관 행렬은 공분산 행렬을 표준화하여 얻은 행렬로, 변수들 간의 상관 관계를 나타내는 지표입니다. 상관 행렬의 값은 -1과 1 사이에 위치하며, 1에 가까울수록 강한 양의 선형 상관관계를 나타내고, -1에 가까울수록 강한 음의 선형 상관관계를 나타냅니다. 상관 계수가 0에 가까울수록 두 변수 사이에는 선형 관계가..