Processing math: 100%
본문 바로가기

728x90

데이터 분석

4
데이터와 전처리 데이터 처리와 변환에 대한 이해는 효과적인 데이터 분석 및 모델링 작업을 위해 핵심적입니다. 데이터 파이프라인은 데이터의 생성, 수집, 가공, 저장, 시각화 등 일련의 과정을 의미합니다. 이러한 과정을 효율적으로 관리함으로써 데이터의 품질과 활용 가능성을 향상시킬 수 있습니다. 데이터 저장소의 선택은 데이터 처리 과정에 중요한 영향을 미칩니다. 데이터 웨어하우스는 기간 시스템의 데이터베이스에 축적된 데이터를 변환하고 관리하는 데이터베이스입니다. 데이터 레이크는 구조화되지 않은 대량의 데이터를 중앙 집중식으로 저장하고 처리하는데 사용됩니다. 이러한 저장소는 데이터 분석의 효율성과 확장성을 결정짓는 중요한 요소입니다. 데이터 분석 프로세스는 문제 정의, 데이터 수집, 데이터 전처리, 모델링, 해석 및 시각화..
[통계] Day 6 데이터 분석: 차원 축소[PCA, 인자분석] 1. 공분산과 상관 행렬 공분산은 두 변수 간의 관계를 나타내는 통계적 지표입니다. 공분산은 변수 간의 편차를 계산하여 그 값들의 평균을 내는 과정으로 계산됩니다. 공분산 값이 0보다 크면 두 변수가 함께 증가하는 경향이 있으며, 0보다 작으면 하나의 변수가 증가할 때 다른 변수가 감소하는 경향이 있습니다. 하지만 공분산 값만으로는 변수의 단위에 의해 영향을 받아 해석이 어려운 경우가 있습니다. 상관 행렬은 공분산 행렬을 표준화하여 얻은 행렬로, 변수들 간의 상관 관계를 나타내는 지표입니다. 상관 행렬의 값은 -1과 1 사이에 위치하며, 1에 가까울수록 강한 양의 선형 상관관계를 나타내고, -1에 가까울수록 강한 음의 선형 상관관계를 나타냅니다. 상관 계수가 0에 가까울수록 두 변수 사이에는 선형 관계가..
[통계] Day 4-3 시계열 데이터의 이상치 시계열 이상치 시계열 데이터에서 이상치란 다른 관측치들과 동떨어진 값으로, 잘못된 측정, 데이터 수집 오류, 자연적인 이벤트의 특이한 결과 등의 요인으로 발생합니다. 이상치는 데이터 분석과 예측에 부정적인 영향을 미칠 수 있으며, 이를 감지하고 처리하는 것이 중요합니다. 이상치 탐지 이상치 탐지는 데이터의 품질을 향상시키는 중요한 단계입니다. 이상치가 제거되지 않으면 모델의 정확성이 떨어지고, 예측 결과에 신뢰성이 떨어질 수 있습니다. 이상치 탐지는 데이터 분석에서 정확한 정보를 얻는 핵심 과정 중 하나입니다. 또한 이상치 패턴을 파악하여 이를 원인 분석에 활용할 수 있습니다. 방법 1. 이동 평균과 이동 표준 편차: 이동 평균은 데이터 포인트의 이전 N개의 포인트의 평균을 계산하는 방법입니다. 이동 표..
[DP] - 4 데이터 분석 및 시각화 데이터 분석의 기본 사항 데이터 분석은 기업이 의사 결정에 활용할 수 있는 인사이트를 발견하는 과정입니다. 대규모 데이터 웨어하우징, 분석 데이터 저장소, 데이터 시각화 등의 단계로 구성됩니다. 대규모 데이터 웨어하우징 대규모 데이터 웨어하우징은 데이터를 효과적으로 수집하고 처리하여 분석에 활용하기 위한 시스템입니다. - 데이터 수집 및 처리: ETL(추출, 변환, 로드) 또는 ELT(추출, 로드, 변환) 오케스트레이션을 통해 데이터를 수집하고 처리합니다. 대규모 데이터의 정리와 재주성을 위한 분산 처리가 핵심입니다. - 분석 데이터 저장소: 데이터 웨어하우스와 데이터 레이크로 데이터를 저장합니다. 데이터 웨어하우스는 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하며, 데이터 레이크는 비정..