본문 바로가기

IT/AI

[DP] - 4 데이터 분석 및 시각화

728x90

데이터 분석의 기본 사항
데이터 분석은 기업이 의사 결정에 활용할 수 있는 인사이트를 발견하는 과정입니다. 대규모 데이터 웨어하우징, 분석 데이터 저장소, 데이터 시각화 등의 단계로 구성됩니다.

 


대규모 데이터 웨어하우징
대규모 데이터 웨어하우징은 데이터를 효과적으로 수집하고 처리하여 분석에 활용하기 위한 시스템입니다.
- 데이터 수집 및 처리: ETL$($추출, 변환, 로드$)$ 또는 ELT$($추출, 로드, 변환$)$ 오케스트레이션을 통해 데이터를 수집하고 처리합니다. 대규모 데이터의 정리와 재주성을 위한 분산 처리가 핵심입니다.
- 분석 데이터 저장소: 데이터 웨어하우스와 데이터 레이크로 데이터를 저장합니다. 데이터 웨어하우스는 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하며, 데이터 레이크는 비정규화된 파일 스토리지로서 대규모 데이터 분석에 사용됩니다.
- 분석 데이터 모델: 분석 엔터티에 대한 의미 체계 모델을 구축하며, 집계된 큐브 형식과 같이 하나 이상의 차원에 숫자 값을 요약하여 활용합니다.
- 데이터 시각화: 보고서, 차트, 대시보드 등을 통해 분석 결과를 시각화하여 의사 결정에 활용합니다.

 


데이터 수집 및 처리 파이프라인
Azure Data Factory나 Azure Synapse Analytics와 같은 플랫폼을 이용하여 데이터 수집 및 처리 파이프라인을 구축합니다. 입력 데이터 세트를 처리하고 파이프라인을 통해 출력 데이터 세트로 전달하는 과정을 거칩니다.

 


분석 데이터 저장소
데이터 웨어하우스는 대규모 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하여 쿼리 최적화를 위해 데이터를 비정규화합니다. 데이터 레이크는 데이터 파일을 분산 파일 시스템에 저장하며 테이블 형식 스토리지 계층을 통해 관계형 인터페이스를 제공합니다.

분석 데이터 저장소 서비스 설명 특징
Azure Synapse Analytics Azure에서 단일 통합 대규모 분석 솔루션에 사용 관계형 데이터 웨어하우스 및 데이터 레이크 분석을 위한 통합 솔루션
여러 분석 런타임을 통한 확장성 있는 처리 및 쿼리$($Synapse …, Apache Spark$)$
Azure Synapse Studio의 대화형 환경
데이터 수집 및 처리를 위한 기본 제공 파이프라인 통합
Azure Databricks Databricks 기술을 활용하고 클라우드 이식성을 위해 사용 Databricks 클라우드 순석 플랫폼의 Azure 기반 구현
데이터 레이크 분석을 위한 스케일링 가능한 Spark 및 SQL 쿼리
Azure Databricks 작업 영역의 대화형 환경
Azure Data Factory 사용하여 데이터 수집 및 처리 파이프라인 구현
Azure HDInsight 여러 오픈 소스 플랫폼을 지원해야 하는 경우 사용 데이터 레이크를 기반으로 하는 일반적인 Apache “빅데이터” 프레임 워크의 Azure 기반 구현
Hadoop, Spark, Kafka, Storm, HBase

 

 

일괄처리 및 스트림 처리

일괄 처리$($배치$)$: 데이터는 정기적으로 수집 및 처리됩니다.
스트림 처리: 데이터가 도착하면 실시간으로 처리되며, Azure Data Explorer를 사용하여 실시간 로그 및 원격 분석을 수행할 수 있습니다.

 


데이터 시각화
Power BI를 활용하여 데이터 시각화를 수행합니다.
- Power BI Desktop: 다양한 소스에서 데이터를 가져와 데이터 모델을 정의하고 보고서에서 시각화를 생성합니다.
- Power BI 서비스: 게시된 보고서를 다른 사용자와 공유하며, 웹 브라우저나 휴대폰 앱을 통해 시각화된 데이터를 상호 작용할 수 있습니다.

Power BI Desktop으로 시작 하나 이상의 소스에서 데이터 가져오기
데이터 모델 정의
보고서에서 시각화 만들기
Power BI 서비스에 게시 데이터 새로 고침 일정
대시보드 및 앱 만들기
다른 사용자와 공유
게시된 보고서와 상호 작용 웹 브라우저
Power BI 휴대폰 앱

 


분석 데이터 모델링
분석 보고서에서 사용되는 데이터 시각화 유형으로는 표, 텍스트, 막대형 차트, 꺾은선형 차트, 원형 차트, 산점도, 맵 등이 있습니다. 이를 통해 데이터의 특성을 파악하고 의사 결정에 활용할 수 있습니다.

'IT > AI' 카테고리의 다른 글

[통계] Day 1-2 AI 통계 서비스  (0) 2023.08.10
[통계] Day 1-1 데이터 분석  (0) 2023.08.10
[DP] - 3 NOSQL과 Azure Storage  (0) 2023.08.09
[DP] - 2 Azure의 관계형 데이터의 기본 사항  (0) 2023.08.09