본문 바로가기

728x90

주성분 분석

(4)
[통계] Day 7-2 데이터 분석: 다변량 분석 다변량 분석은 여러 개의 독립 변수와 종속 변수 간의 관계를 분석하는 통계적 방법으로, 주로 독립 변수들이 종속 변수에 미치는 영향을 이해하고 예측 모델을 개발하는 데 활용됩니다. 이는 데이터의 탐색과 시각화, 변수의 특성과 성질 파악, 데이터 전처리와 변수 선택, 예측 및 분류 등 다양한 목적으로 활용됩니다. 데이터의 다양한 정보를 제공하며 변수 간의 상관 관계를 파악하는 데 유용하며, 또한 데이터의 차원을 축소하여 복잡성을 줄이고 모델을 개선하는 데에도 활용됩니다. 다변량 분석은 주로 회귀 분석, 다변량 분산 분석, 요인 분석, 주성분 분석 등의 기법을 포함하며, 시각화 기법으로는 산점도 행렬, 병렬 좌표, 히트맵, 다차원 척도법 등을 활용하여 변수들 간의 관계를 시각적으로 이해하고 패턴을 발견할 수..
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] 1. 공분산과 상관 행렬 공분산은 두 변수 간의 관계를 나타내는 통계적 지표입니다. 공분산은 변수 간의 편차를 계산하여 그 값들의 평균을 내는 과정으로 계산됩니다. 공분산 값이 0보다 크면 두 변수가 함께 증가하는 경향이 있으며, 0보다 작으면 하나의 변수가 증가할 때 다른 변수가 감소하는 경향이 있습니다. 하지만 공분산 값만으로는 변수의 단위에 의해 영향을 받아 해석이 어려운 경우가 있습니다. 상관 행렬은 공분산 행렬을 표준화하여 얻은 행렬로, 변수들 간의 상관 관계를 나타내는 지표입니다. 상관 행렬의 값은 -1과 1 사이에 위치하며, 1에 가까울수록 강한 양의 선형 상관관계를 나타내고, -1에 가까울수록 강한 음의 선형 상관관계를 나타냅니다. 상관 계수가 0에 가까울수록 두 변수 사이에는 선형 관계가..
[선형대수학] 선형대수와 머신 러닝 2 [주성분 분석과 차원 축소] 주성분 분석$($PCA$)$는 데이터의 차원을 축소하여 데이터를 간결하고 효율적으로 표현하는 데에 사용되는 중요한 머신 러닝 알고리즘입니다. 이번 포스팅에서는 PCA의 개념과 선형대수학의 기법인 고유값 분해$($Eigenvalue Decomposition$)$와 특이값 분해$($SVD$)$를 활용하여 데이터를 차원 축소하는 방법을 자세히 알아보겠습니다. 1. PCA의 개념: PCA는 고차원의 데이터를 새로운 축$($주성분$)$으로 변환하여 데이터의 분산을 최대한 보존하는 차원 축소 기법입니다. 주성분은 데이터의 분산이 가장 큰 방향 벡터로, 데이터를 가장 잘 설명하는 축입니다. PCA는 데이터의 차원을 줄이면서도 원본 데이터의 중요한 특성을 최대한 유지하여 노이즈를 감소시키고, 데이터를 시각화하거나 머신..
[선형대수학] 선형대수와 머신 러닝 0 수학적 토대로 더 나은 예측 모델 구축하기 선형대수학은 머신 러닝에 필수적인 수학적 토대 중 하나입니다. 이 블로그 포스트에서는 선형대수학이 머신 러닝에서 어떻게 활용되는지 다양한 예시와 함께 알아보겠습니다. 선형대수학이 제공하는 강력한 도구들은 머신 러닝 알고리즘의 개선과 데이터 분석의 효율성 증대에 큰 기여를 합니다. 1. 선형 회귀$($Linear Regression$)$: 선형 회귀는 입력 변수와 출력 변수 간의 선형 관계를 모델링하는 데에 자주 사용됩니다. 선형 회귀 모델은 선형대수학의 기본 개념을 활용하여 최적의 회귀선을 찾습니다. 특히, 최소제곱법$($Least Squares Method$)$은 잔차의 제곱합을 최소화하여 가장 잘 맞는 회귀선을 찾는데 사용됩니다. * 잔차$($residual..