본문 바로가기

728x90

NLP

(2)
[NLP] 자연어 처리: 트랜스포머 [기초] 자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 분야로, 다양한 기술과 모델이 사용됩니다. 이 글에서는 자연어 처리에서 주로 사용되는 접근법과 모델 중에서 Autoencoding, Autoregressive, 시퀀스 투 시퀀스 모델, 그리고 트랜스포머에 대해 다뤄보겠습니다. 1. Autoencoding vs. Autoregressive - Autoencoding: 입력 데이터를 압축하여 의미 있는 표현을 학습하는 방식입니다. 인코더와 디코더로 구성되며, 데이터의 특징을 추출하고 잡음 제거, 차원 축소 등에 활용됩니다. - Autoregressive: 시퀀스 데이터를 이전 타임스텝의 정보를 활용하여 다음 타임스텝을 예측하는 방법입니다. 주로 시퀀스 생성 작업에 활용되며, 번역이나 음성 합성에서 사용..
[NLP] 텍스트 데이터 전처리와 표현 방법 [기초] 자연어 처리$($NLP$)$는 인간의 언어를 기계가 이해하고 처리하는 분야로, 다양한 응용 분야에서 중요한 역할을 합니다. NLP는 텍스트 데이터를 처리하는데 있어서 다양한 과정과 기법을 포함하고 있습니다. 이 중에서도 텍스트 데이터 전처리와 표현 방법은 NLP 작업의 기초를 이루는 중요한 단계입니다. 텍스트 데이터 전처리 과정에서는 불필요한 노이즈를 제거하고, 텍스트를 일관된 형태로 정규화하는 작업이 이루어집니다. 특수 문자 제거, 오타 수정, 결측치 및 이상치 제거 등의 과정을 거쳐 텍스트 데이터를 깔끔하게 정리합니다. 또한, 텍스트 토큰화는 문장을 의미 있는 단위로 분리하는 작업으로, 문장 토큰화와 단어 토큰화가 포함됩니다. 이러한 토큰화 과정은 자연어 처리의 중요한 기반을 이루는 작업입니다. 텍스..