본문 바로가기

728x90

IT/AI

(39)
[통계] Day 2-2 데이터 분석 방법 데이터 분석의 다양한 방법과 도구 데이터 분석은 수많은 방법과 도구를 활용하여 다양한 유형의 데이터를 이해하고 해석하는 프로세스입니다. 다양한 데이터 유형에 대한 분석 기법을 알아보고, 그에 대한 간략한 설명을 제공하겠습니다. 수치형 데이터 분석 1. QQ-Plot: 정규 분포 가정을 확인하는 시각화 도구입니다. 분석 대상 데이터의 분포와 정규 분포의 이론적 분포를 비교하여 정규성을 판단합니다. 2. t-검정: 두 집단 간 평균 차이를 검정하는 통계적 방법입니다. 일반적으로 두 그룹의 평균이 유의미한 차이가 있는지 검증합니다. 예$)$ 두 가지 신약의 효과를 비교하고자 할 때 사용됩니다. 한 그룹에는 신약 A를, 다른 그룹에는 신약 B를 투여하고 각 그룹의 치료 효과를 비교하려고 합니다. t-검정을 통해..
[통계] Day 2-1 데이터 형태: 순서형, 이진, 시계열, 공간 다양한 유형의 데이터 분석과 시각화 방법 데이터 분석은 다양한 유형의 데이터를 이해하고 분석하는 과정을 포함합니다. 각 유형의 데이터는 그 특성에 따라 다른 분석 및 시각화 방법을 요구합니다. 이제 몇 가지 주요한 데이터 유형과 그에 따른 분석 방법을 살펴보겠습니다. 1. 순서형 데이터 $($Ordinal data$)$: 순서형 데이터는 서로 다른 카테고리에 속하면서도 일정한 순서나 계층 구조를 가지는 데이터입니다. 이러한 데이터를 분석할 때에는 중앙값, 사분위수, 백분위수 등의 대표값을 사용하여 데이터의 특성을 파악합니다. 시각화에는 막대 그래프나 도수분포표와 같은 방법을 활용합니다. 2. 이진 데이터 $($Binary data$)$: 이진 데이터는 두 가지 값 중 하나만 가지는 데이터로, 명목형 데이..
[통계] Day 1-4 이상치, 상관관계, 카이제곱 검정 데이터 분석은 정확한 판단과 의사 결정을 위해 핵심적인 개념들을 이해하는 것이 중요합니다. 이상치와 상관관계는 데이터 분석에서 자주 다뤄지는 주제입니다. 그럼 이 두 개념에 대해서 살펴보겠습니다. 1. 이상치 $($Outlier$)$ 이상치란 대부분의 데이터가 모여 있는 부분에서 벗어나 극단적인 값으로 나타나는 데이터를 말합니다. 이상치는 데이터의 분석 결과를 왜곡시키거나 오해를 야기할 수 있기 때문에 탐지하고 처리하는 것이 중요합니다. 상자 그림 (Box Plot)은 이상치를 시각화하기 위한 효과적인 도구입니다. 상자 그림은 데이터의 위치와 분산을 한눈에 파악할 수 있도록 도와줍니다. 이 그림에는 다음과 같은 정보가 담겨 있습니다: 최솟값 $($Minimum$)$: 데이터 중 가장 작은 값 제1사분위수..
[통계] Day 1-3 데이터 형태: 연속형, 이산형, 범주형 데이터의 종류와 통계적 분석 방법 데이터는 다양한 형태로 존재하며, 이를 통계적으로 분석함으로써 유용한 정보와 인사이트를 얻을 수 있습니다. 데이터의 종류에 따라 적절한 통계적 분석 방법이 다르며, 데이터의 특성을 파악하는 것이 중요합니다. 여기에서는 데이터의 종류와 통계적 분석 방법에 대해 살펴보겠습니다. 1. 연속형 데이터(Continuous data) 연속형 데이터는 연속적인 값을 가지며, 정확한 수치로 측정됩니다. 예를 들어 온도, 길이, 시간 등이 연속형 데이터에 해당합니다. 이러한 데이터는 다양한 분포를 가지며, 주로 정규 분포를 따르는 경우가 많습니다. 데이터의 중심 경향성과 분산을 파악하여 이상치를 탐지하거나 추론 분석에 활용합니다. 2. 이산형 데이터(Discrete data) 이산형 데..
[통계] Day 1-2 AI 통계 서비스 데이터 분석은 현대 사회에서 광범위하게 활용되며, 다양한 분야에서 의사 결정과 문제 해결에 필수적인 도구로 사용되고 있습니다. 데이터 분석의 과정은 데이터 수집부터 모델링까지 다양한 단계로 구성됩니다. 이를 통해 중요한 인사이트를 발견하고 더 나은 결과를 얻을 수 있습니다. 데이터 수집 및 전처리 데이터 분석의 첫 단계는 데이터를 수집하고 전처리하는 것입니다. 데이터 품질을 확인하고, 결측치, 이상치, 중복 등의 문제를 처리하며, 필요한 변수를 추출합니다. 데이터의 형식 변환도 필요한 경우에 수행됩니다. 기술통계 분석 기술통계 분석은 데이터의 기본적인 특성과 패턴을 파악하기 위한 단계입니다. 평균, 분산, 상관관계 등과 같은 통계량을 계산하여 데이터의 특성을 정량화합니다. 추론통계 분석 추론통계 분석은 ..
[통계] Day 1-1 데이터 분석 통계는 현대 사회에서 중요한 결정과 분석에 필수적인 도구로 사용되는 핵심 분야입니다. 이를 통해 데이터를 효과적으로 활용하여 패턴, 관계, 경향을 파악할 수 있으며, 이로부터 인사이트를 얻어 비즈니스 전략 수립, 문제 해결, 의사 결정 등 다양한 영역에서 큰 도움을 받을 수 있습니다. 데이터 통계는 데이터에 기반하여 정보를 추출하고 분석하는 과정입니다. 데이터는 관찰, 실험, 조사 등을 통해 수집된 정보를 말하며, 이러한 데이터는 크게 수량적 데이터와 질적 데이터로 구분됩니다. - 수량적 데이터: 숫자로 표현되는 데이터로, 예를 들면 금액, 시간, 온도 등이 있습니다. - 질적 데이터: 범주 혹은 카테고리로 표현되는 데이터로, 예를 들면 성별, 제품 카테고리, 학력 수준 등이 있습니다. 분포와 패턴 통계..
[DP] - 4 데이터 분석 및 시각화 데이터 분석의 기본 사항 데이터 분석은 기업이 의사 결정에 활용할 수 있는 인사이트를 발견하는 과정입니다. 대규모 데이터 웨어하우징, 분석 데이터 저장소, 데이터 시각화 등의 단계로 구성됩니다. 대규모 데이터 웨어하우징 대규모 데이터 웨어하우징은 데이터를 효과적으로 수집하고 처리하여 분석에 활용하기 위한 시스템입니다. - 데이터 수집 및 처리: ETL$($추출, 변환, 로드$)$ 또는 ELT$($추출, 로드, 변환$)$ 오케스트레이션을 통해 데이터를 수집하고 처리합니다. 대규모 데이터의 정리와 재주성을 위한 분산 처리가 핵심입니다. - 분석 데이터 저장소: 데이터 웨어하우스와 데이터 레이크로 데이터를 저장합니다. 데이터 웨어하우스는 관계형 데이터베이스 저장소와 쿼리 엔진을 제공하며, 데이터 레이크는 비정..
[DP] - 3 NOSQL과 Azure Storage NOSQL$($Not Only SQL$)$ NOSQL은 "Not Only SQL"의 약자로, 관계형 데이터베이스가 아닌 다양한 데이터 모델과 저장 방식을 허용하는 데이터베이스 시스템을 지칭합니다. NOSQL 데이터베이스는 다양한 형태의 데이터를 저장하고 관리하는데 특화되어 있습니다. Azure Blob Storage Azure Blob Storage는 이진 대형 객체$($Binary Large Object, BLOB$)$ 데이터에 대한 스토리지 솔루션입니다. 블록 Blob, 페이지 Blob, 추가 Blob의 세 가지 유형으로 구분됩니다. 블록 Blob은 크고 불연속적인 데이터를 저장하기에 적합하며 최대 4.7TB까지의 용량을 가질 수 있습니다. 페이지 Blob은 가상 디스크 스토리지로 사용되며 최대 8T..
[DP] - 2 Azure의 관계형 데이터의 기본 사항 관계형 데이터 개념 살펴보기 관계형 데이터는 테이블에 저장되며, 테이블은 행과 열로 구성됩니다. 행은 레코드를, 열은 속성을 나타냅니다. 이러한 관계형 데이터는 테이블 간의 관계를 통해 연결될 수 있습니다. 각 열에는 데이터 형식이 지정되며, 이는 데이터의 쓰기 스키마 및 데이터의 구조를 정의합니다. 표준화$($정규화$)$ 정규화는 관계형 데이터를 구조화하여 중복을 최소화하고 데이터의 일관성을 유지하는 과정입니다. 각 엔터티$($개체$)$를 자체 테이블로 분리하고, 불연속적인 특성은 각각의 열로 분리합니다. 또한 기본 키를 사용하여 각 엔터티 인스턴스$($행$)$를 고유하게 식별하고, 외래키 열을 사용하여 관련 엔터티를 연결합니다. SQL$($구조적 쿼리 언어$)$ SQL은 관계형 데이터베이스와 함께 사..
[DP] - 1 데이터, 데이터 워크로드, Microsoft 클라우드 서비스 데이터란 무엇일까요? 데이터는 정보를 기록하는 데 사용되는 값들을 의미합니다. 이러한 값들은 종종 하나 이상의 속성을 가진 엔터티를 나타냅니다. 데이터는 크게 정형 데이터, 반정형 데이터, 비정형 데이터로 분류될 수 있습니다. 정형 데이터는 구조화된 테이블 형태로 저장되는 데이터이며, 반정형 데이터는 일부 구조화된 형태를 가지고 있지만 완전한 테이블 형태는 아닌 데이터를 의미하고, 비정형 데이터는 구조가 없는 데이터입니다. 데이터 저장 데이터는 파일 또는 데이터베이스를 통해 저장될 수 있습니다. 파일 형식으로는 텍스트 파일부터 JSON, XML 같은 형식, 그리고 BLOB$($Binary Large Object$)$ 등 다양한 형식이 있습니다. 최적화된 형식으로는 Avro, ORC, Parquet 등이 ..
[NLP] 텍스트 데이터 전처리와 표현 방법 [기초] 자연어 처리$($NLP$)$는 인간의 언어를 기계가 이해하고 처리하는 분야로, 다양한 응용 분야에서 중요한 역할을 합니다. NLP는 텍스트 데이터를 처리하는데 있어서 다양한 과정과 기법을 포함하고 있습니다. 이 중에서도 텍스트 데이터 전처리와 표현 방법은 NLP 작업의 기초를 이루는 중요한 단계입니다. 텍스트 데이터 전처리 과정에서는 불필요한 노이즈를 제거하고, 텍스트를 일관된 형태로 정규화하는 작업이 이루어집니다. 특수 문자 제거, 오타 수정, 결측치 및 이상치 제거 등의 과정을 거쳐 텍스트 데이터를 깔끔하게 정리합니다. 또한, 텍스트 토큰화는 문장을 의미 있는 단위로 분리하는 작업으로, 문장 토큰화와 단어 토큰화가 포함됩니다. 이러한 토큰화 과정은 자연어 처리의 중요한 기반을 이루는 작업입니다. 텍스..
[AI] 자연어 처리 [Microsoft Azure] 안녕하세요! 오늘은 자연어 처리와 대화형 AI에 대해 알아보겠습니다. 이러한 기술들은 최근 AI 분야에서 큰 관심을 받고 있으며, Microsoft Azure에서도 AI 서비스를 제공하고 있습니다. 1. 자연어 처리 - 텍스트 분석 및 엔터티$($Entity$)$ 인식: 텍스트 데이터를 분석하여 감정, 핵심 구문, 엔터티(명사 등)를 추출합니다. - 정서 분석: 텍스트 데이터의 감정을 분석하여 긍정, 부정 또는 중립으로 분류합니다. 이를 통해 사용자의 감정을 이해하고, 적절한 반응을 할 수 있습니다. - 음성 인식 및 합성: 음성을 텍스트로 변환하거나, 텍스트를 음성으로 합성하는 기능을 제공합니다. 음성 인식을 통해 사용자의 음성 명령을 이해하고, 음성 합성을 통해 AI 에이전트가 음성으로 응답합니다. ..