본문 바로가기

IT/AI

[DP] - 1 데이터, 데이터 워크로드, Microsoft 클라우드 서비스

728x90

데이터란 무엇일까요?
데이터는 정보를 기록하는 데 사용되는 값들을 의미합니다. 이러한 값들은 종종 하나 이상의 속성을 가진 엔터티를 나타냅니다. 데이터는 크게 정형 데이터, 반정형 데이터, 비정형 데이터로 분류될 수 있습니다. 정형 데이터는 구조화된 테이블 형태로 저장되는 데이터이며, 반정형 데이터는 일부 구조화된 형태를 가지고 있지만 완전한 테이블 형태는 아닌 데이터를 의미하고, 비정형 데이터는 구조가 없는 데이터입니다.

 


데이터 저장
데이터는 파일 또는 데이터베이스를 통해 저장될 수 있습니다. 파일 형식으로는 텍스트 파일부터 JSON, XML 같은 형식, 그리고 BLOB$($Binary Large Object$)$ 등 다양한 형식이 있습니다. 최적화된 형식으로는 Avro, ORC, Parquet 등이 있습니다. 데이터베이스는 관계형 데이터베이스와 비관계형 데이터베이스로 나뉩니다. 관계형 데이터베이스는 테이블 형태로 데이터를 저장하며, 비관계형 데이터베이스는 키-값 스토어, 문서 스토어, 열 패밀리 스토어, 그래프 스토어 등의 형태로 데이터를 저장합니다.

 


트랜잭션 데이터 워크로드
트랜잭션 데이터 워크로드는 애플리케이션을 지원하기 위해 데이터베이스에 데이터를 저장하는 작업을 의미합니다. 이는 주로 OLTP$($Online Transactional Processing$)$ 작업에 사용됩니다. OLTP 작업은 읽기와 쓰기 작업의 혼합을 가지고 있으며, 데이터는 트랜잭션을 사용하여 저장됩니다. 트랜잭션은 ACID 원칙$($원자성, 일관성, 격리, 내구성$)$을 따릅니다.

 

트랜잭션$($ACID기반$)$
- 원자성: 각 트랜잭션은 완전히 성공하거나 완전히 실패하는 단일 작업 단위로 처리됩니다.
- 일관성: 트랜잭션은 데이터베이스로부터 하나의 유효한 상태에서 다른 유효한 상태로만 데이터를 받을 수 있습니다.
- 격리: 동시 트랜잭션은 서로 간섭할 수 없습니다.
- 내구성: 트랜잭션이 성공하면 데이터 변경 사항이 데이터 베이스에 유지됩니다.

 


분석 데이터 워크로드
분석 데이터 워크로드는 데이터 파일을 분석하고 처리하는 작업을 의미합니다. 중앙 데이터 레이크에 데이터 파일을 저장하고, ETL$($추출, 변환, 로드$)$ 프로세스를 통해 OLTP 데이터베이스나 다른 소스에서 데이터를 읽어 데이터 웨어하우스로 복사합니다. 데이터 웨어하우스에 저장된 데이터는 집계되어 OLAP$($Online Analytical Processing$)$ 모델에 로드될 수 있으며, 이를 통해 보고서와 대시보드를 생성할 수 있습니다.

데이터 베이스 관리자 데이터 엔지니어 데이터 분석가
데이터베이스 프로지저닝, 구성, 관리 데이터 통합 파이프라인 및 ETL 프로세스 분석 모델링
데이터베이스 보안 및 사용자 엑세스 데이터 정리및 변환 데이터 보고 및 요약
데이터베이스 백업 및 복원력 분석 데이터 저장소 스키마 및 데이터 로드 데이터 시각화
데이터 베이스 성능 모니터링 및 최적화    

 

 

데이터용 Microsoft 클라우드 서비스

Microsoft는 데이터와 관련된 다양한 클라우드 서비스를 제공합니다. Azure SQL은 관계형 데이터베이스 서비스로 SQL Server를 기반으로 합니다. Azure Cosmos DB는 확장성이 뛰어난 비관계형 데이터베이스 시스템입니다. Azure Storage는 파일, Blob, 테이블 스토리지 및 데이터 레이크 스토리지를 지원합니다. Azure Data Factory는 데이터 파이프라인을 구축하고 관리합니다. Azure Synapse Analytics는 통합된 엔드 투 엔드 분석 서비스로 SQL, Apache Spark, Data Explorer 등을 지원합니다. 이 외에도 Azure Databricks, Azure HDInsight, Azure Stream Analytics, Azure Data Explorer, Microsoft Power BI 등 다양한 서비스가 데이터 관리와 분석에 사용될 수 있습니다.

데이터 저장소 데이터 엔지니어링 및 분석
Azure SQL: SQL Server 기반 관계형 데이터 베이스 서비스 제품군 Azure Data Factory: 데이터 파이프라인
Azure Synapse Analytics: 통합된 엔드 투 엔드 분석/ Pipelines, SQL, Apache, Spark, Data Explorer…
오픈 소스를 위한 Azure Database: Maria DB, MySQL, PostgreSQL Azure Databricks: Apach Spark 분석 및 데이터 처리
Azure HDInsight: Apache 오픈 소스 플랫폼
Azure Cosmos DB: 확장성이 뛰어난 비관계형 데이터베이스 시스템 Azure Stream Analytics: IoT 솔루션에 대한 실시간 데이터 처리
Azure Data Explorer: 로그 및 원격 분석에 대한 실시간 데이터 분석
Azure Storage: 파일, Blob, 테이블 스토리지/ 데이터 레이크 스토리지를 위한 계층 구조 네임스페이스 Microsoft Purview: Enterprise 데이터 거버넌스/ 데이터 매핑 및 검색 가능성
Microsoft Power BI: 분석 데이터 모델링/ 대화형 데이터 시각화