본문 바로가기

728x90

차원 축소

(3)
데이터와 전처리 데이터 처리와 변환에 대한 이해는 효과적인 데이터 분석 및 모델링 작업을 위해 핵심적입니다. 데이터 파이프라인은 데이터의 생성, 수집, 가공, 저장, 시각화 등 일련의 과정을 의미합니다. 이러한 과정을 효율적으로 관리함으로써 데이터의 품질과 활용 가능성을 향상시킬 수 있습니다. 데이터 저장소의 선택은 데이터 처리 과정에 중요한 영향을 미칩니다. 데이터 웨어하우스는 기간 시스템의 데이터베이스에 축적된 데이터를 변환하고 관리하는 데이터베이스입니다. 데이터 레이크는 구조화되지 않은 대량의 데이터를 중앙 집중식으로 저장하고 처리하는데 사용됩니다. 이러한 저장소는 데이터 분석의 효율성과 확장성을 결정짓는 중요한 요소입니다. 데이터 분석 프로세스는 문제 정의, 데이터 수집, 데이터 전처리, 모델링, 해석 및 시각화..
[통계] Day 7-2 데이터 분석: 다변량 분석 다변량 분석은 여러 개의 독립 변수와 종속 변수 간의 관계를 분석하는 통계적 방법으로, 주로 독립 변수들이 종속 변수에 미치는 영향을 이해하고 예측 모델을 개발하는 데 활용됩니다. 이는 데이터의 탐색과 시각화, 변수의 특성과 성질 파악, 데이터 전처리와 변수 선택, 예측 및 분류 등 다양한 목적으로 활용됩니다. 데이터의 다양한 정보를 제공하며 변수 간의 상관 관계를 파악하는 데 유용하며, 또한 데이터의 차원을 축소하여 복잡성을 줄이고 모델을 개선하는 데에도 활용됩니다. 다변량 분석은 주로 회귀 분석, 다변량 분산 분석, 요인 분석, 주성분 분석 등의 기법을 포함하며, 시각화 기법으로는 산점도 행렬, 병렬 좌표, 히트맵, 다차원 척도법 등을 활용하여 변수들 간의 관계를 시각적으로 이해하고 패턴을 발견할 수..
[선형대수학] 선형대수와 머신 러닝 2 [주성분 분석과 차원 축소] 주성분 분석$($PCA$)$는 데이터의 차원을 축소하여 데이터를 간결하고 효율적으로 표현하는 데에 사용되는 중요한 머신 러닝 알고리즘입니다. 이번 포스팅에서는 PCA의 개념과 선형대수학의 기법인 고유값 분해$($Eigenvalue Decomposition$)$와 특이값 분해$($SVD$)$를 활용하여 데이터를 차원 축소하는 방법을 자세히 알아보겠습니다. 1. PCA의 개념: PCA는 고차원의 데이터를 새로운 축$($주성분$)$으로 변환하여 데이터의 분산을 최대한 보존하는 차원 축소 기법입니다. 주성분은 데이터의 분산이 가장 큰 방향 벡터로, 데이터를 가장 잘 설명하는 축입니다. PCA는 데이터의 차원을 줄이면서도 원본 데이터의 중요한 특성을 최대한 유지하여 노이즈를 감소시키고, 데이터를 시각화하거나 머신..