본문 바로가기

728x90

DP

(4)
[DP] - 4 데이터 분석 및 시각화 데이터 분석의 기본 사항 데이터 분석은 기업이 의사 결정에 활용할 수 있는 인사이트를 발견하는 과정입니다. 대규모 데이터 웨어하우징, 분석 데이터 저장소, 데이터 시각화 등의 단계로 구성됩니다. 대규모 데이터 웨어하우징 대규모 데이터 웨어하우징은 데이터를 효과적으로 수집하고 처리하여 분석에 활용하기 위한 시스템입니다. - 데이터 수집 및 처리: ETL$($추출, 변환, 로드$)$ 또는 ELT$($추출, 로드, 변환$)$ 오케스트레이션을 통해 데이터를 수집하고 처리합니다. 대규모 데이터의 정리와 재주성을 위한 분산 처리가 핵심입니다. - 분석 데이터 저장소: 데이터 웨어하우스와 데이터 레이크로 데이터를 저장합니다. 데이터 웨어하우스는 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하며, 데이터 레이크는 비정..
[DP] - 3 NOSQL과 Azure Storage NOSQL$($Not Only SQL$)$ NOSQL은 "Not Only SQL"의 약자로, 관계형 데이터베이스가 아닌 다양한 데이터 모델과 저장 방식을 허용하는 데이터베이스 시스템을 지칭합니다. NOSQL 데이터베이스는 다양한 형태의 데이터를 저장하고 관리하는데 특화되어 있습니다. Azure Blob Storage Azure Blob Storage는 이진 대형 객체$($Binary Large Object, BLOB$)$ 데이터에 대한 스토리지 솔루션입니다. 블록 Blob, 페이지 Blob, 추가 Blob의 세 가지 유형으로 구분됩니다. 블록 Blob은 크고 불연속적인 데이터를 저장하기에 적합하며 최대 4.7TB까지의 용량을 가질 수 있습니다. 페이지 Blob은 가상 디스크 스토리지로 사용되며 최대 8T..
[DP] - 2 Azure의 관계형 데이터의 기본 사항 관계형 데이터 개념 살펴보기 관계형 데이터는 테이블에 저장되며, 테이블은 행과 열로 구성됩니다. 행은 레코드를, 열은 속성을 나타냅니다. 이러한 관계형 데이터는 테이블 간의 관계를 통해 연결될 수 있습니다. 각 열에는 데이터 형식이 지정되며, 이는 데이터의 쓰기 스키마 및 데이터의 구조를 정의합니다. 표준화$($정규화$)$ 정규화는 관계형 데이터를 구조화하여 중복을 최소화하고 데이터의 일관성을 유지하는 과정입니다. 각 엔터티$($개체$)$를 자체 테이블로 분리하고, 불연속적인 특성은 각각의 열로 분리합니다. 또한 기본 키를 사용하여 각 엔터티 인스턴스$($행$)$를 고유하게 식별하고, 외래키 열을 사용하여 관련 엔터티를 연결합니다. SQL$($구조적 쿼리 언어$)$ SQL은 관계형 데이터베이스와 함께 사..
[DP] - 1 데이터, 데이터 워크로드, Microsoft 클라우드 서비스 데이터란 무엇일까요? 데이터는 정보를 기록하는 데 사용되는 값들을 의미합니다. 이러한 값들은 종종 하나 이상의 속성을 가진 엔터티를 나타냅니다. 데이터는 크게 정형 데이터, 반정형 데이터, 비정형 데이터로 분류될 수 있습니다. 정형 데이터는 구조화된 테이블 형태로 저장되는 데이터이며, 반정형 데이터는 일부 구조화된 형태를 가지고 있지만 완전한 테이블 형태는 아닌 데이터를 의미하고, 비정형 데이터는 구조가 없는 데이터입니다. 데이터 저장 데이터는 파일 또는 데이터베이스를 통해 저장될 수 있습니다. 파일 형식으로는 텍스트 파일부터 JSON, XML 같은 형식, 그리고 BLOB$($Binary Large Object$)$ 등 다양한 형식이 있습니다. 최적화된 형식으로는 Avro, ORC, Parquet 등이 ..