ABC부트캠프 데이터 탐험가 과정

[28일차] ABC 부트캠프 Transformer 모델을 이용한 자연어 처리(NLP)

hwibeenjeong 2024. 8. 12. 22:38

0. 자연어 처리

자연어는 사람들이 일상적으로 사용하는 언어로, 인공어와 구분된다. 자연어를 컴퓨터가 이해하고 처리할 수 있도록 여러 단계의 과정이 필요하다. 이 과정들을 하나씩 살펴보자.

1. 자연어 처리 과정

텍스트 사전 처리
텍스트 사전 처리는 원시 텍스트 데이터를 분석하기 전에 깨끗하고 구조화된 형태로 변환하는 과정이다. 주요 단계로는 토큰화, 불용어 제거, 정규화, 어간 추출 및 표제어 추출이 있다.

  • 토큰화: 텍스트를 문장이나 단어 단위로 분리한다.
  • 불용어 제거: 분석에 필요하지 않은 자주 사용되는 단어들(예: "the", "and")을 제거한다.
  • 정규화: 단어를 표준 형태로 변환한다. 예를 들어 대문자를 소문자로 변환하거나, 동사의 시제를 통일한다.
  • 어간 추출 및 표제어 추출: 단어의 기본 형태로 변환하여 단어의 변형을 통합한다.

텍스트 표현
텍스트 표현은 텍스트 데이터를 머신러닝 모델이 이해할 수 있는 숫자 형태로 변환하는 단계이다. 주요 방법으로는 Bag of Words (BoW), TF-IDF, Word Embeddings가 있다.

  • Bag of Words (BoW): 텍스트 내의 단어 빈도를 기반으로 벡터를 만든다. 이 방법은 각 단어가 문서에서 얼마나 자주 등장하는지에 따라 단어를 벡터로 표현하며, 문맥이나 단어 간의 순서는 고려하지 않는다.
  • TF-IDF: 단어 빈도-역문서 빈도(Term Frequency-Inverse Document Frequency)를 사용하여 단어의 중요도를 반영한 벡터를 생성한다.
  • Word Embeddings: Word2Vec, GloVe와 같은 기법을 사용하여 단어를 연속적인 벡터 공간에 임베딩한다.

가중치 재부여
가중치 재부여는 텍스트 표현에서 생성된 벡터에 가중치를 부여하여 특정 단어나 문장이 더 중요한지 판단하게 하는 과정이다.

  • TF-IDF: 단어 빈도와 역문서 빈도를 곱하여 문서 내에서 덜 흔하지만 중요한 단어에 더 높은 가중치를 부여한다.
  • Attention Mechanisms: 신경망에서 특정 단어의 중요도를 학습을 통해 동적으로 조정한다.

차원 축소
차원 축소는 고차원 데이터를 더 낮은 차원으로 변환하는 단계이다. 이 과정은 데이터의 핵심 정보를 최대한 보존하면서, 계산 효율성을 높이고 노이즈를 줄이는 데 목적이 있다.

  • PCA (Principal Component Analysis): 데이터를 선형 변환하여 가장 큰 분산을 갖는 축으로 투영한다.
  • t-SNE (t-Distributed Stochastic Neighbor Embedding): 고차원 데이터를 저차원 공간에 임베딩하여 시각화에 주로 사용한다.

벡터 비교
벡터 비교는 두 텍스트(또는 단어) 벡터 간의 유사도를 측정하는 단계이다.

  • 코사인 유사도: 두 벡터 간의 각도를 계산하여 유사도를 측정한다.
  • 유클리드 거리: 두 벡터 간의 직선 거리를 계산하여 유사도를 측정한다.
  • 자카드 유사도: 두 벡터가 공유하는 요소의 비율을 계산하여 유사도를 측정한다.

머신러닝 알고리즘
머신러닝 알고리즘은 벡터화된 텍스트 데이터를 학습하여 예측이나 분류 등의 작업을 수행하는 단계이다. 주요 알고리즘으로는 로지스틱 회귀, 서포트 벡터 머신(SVM), 딥러닝 모델이 있다.

  • 로지스틱 회귀: 분류 문제에서 텍스트를 특정 클래스에 분류하는 데 사용한다.
  • 서포트 벡터 머신(SVM): 텍스트 데이터의 분류 문제를 해결하는 데 사용한다.
  • 딥러닝 모델: LSTM, GRU, Transformer와 같은 모델을 사용하여 복잡한 자연어 이해 문제를 해결한다.

2. 토큰화 (Tokenization)

토큰화는 자연어 처리에서 원시 텍스트 데이터를 분석하기 위해 더 작은 단위로 분리하는 과정이다. 이 작은 단위를 토큰이라고 하며, 토큰은 일반적으로 단어, 문장, 혹은 의미 있는 최소 단위일 수 있다.

단어 토큰화는 텍스트를 단어 단위로 분리하는 방법이다. 예를 들어 "I love NLP."라는 문장이 주어졌다면, 단어 토큰화는 ["I", "love", "NLP", "."]와 같은 결과를 반환한다.

3. 차원 축소

차원 축소는 고차원 데이터를 더 낮은 차원으로 변환하는 단계이다. 이 과정은 데이터의 핵심 정보를 최대한 보존하면서, 계산 효율성을 높이고, 노이즈를 줄이는 데 목적이 있다. 차원 축소를 통해 계산 복잡성을 줄이고, 노이즈를 감소시켜 모델 성능을 향상할 수 있다. 또한, 2차원 또는 3차원으로 데이터를 축소하면 데이터의 패턴을 더 쉽게 시각화할 수 있다.

4. Embedding

임베딩(Embedding)은 자연어 처리(NLP)에서 텍스트 데이터를 고정된 크기의 수치 벡터로 변환하는 방법이다. 이 수치 벡터는 단어의 의미를 수치 공간에서 표현하며, 유사한 의미를 가진 단어들이 벡터 공간에서 가까운 위치에 배치되도록 한다.

임베딩은 텍스트 분류, 감정 분석, 번역, 챗봇, 검색 엔진 등 다양한 NLP 응용 프로그램에서 사용된다. 예를 들어, 영화 리뷰를 감정 분석하는 모델에서 각 단어의 임베딩 벡터를 입력으로 사용하여 리뷰의 감정이 긍정적인지 부정적인지를 예측할 수 있다. 임베딩은 텍스트 데이터를 효과적으로 수치화하여, 머신러닝 모델이 텍스트를 이해하고 학습할 수 있게 만드는 중요한 기술이다.

5. Bag of Words (BoW)

Bag of Words (BoW)는 텍스트 내의 단어 빈도를 기반으로 텍스트를 벡터로 표현하는 방법이다. 이 기법은 문서 내 단어들의 순서를 고려하지 않으며, 단순히 단어가 몇 번 등장했는지를 세어 벡터를 구성한다. 예를 들어, 두 문장이 같은 단어를 동일한 빈도로 사용하면, BoW 표현에서는 이 두 문장이 동일한 벡터로 표현된다. 이 방법은 단순하지만 텍스트 데이터를 벡터로 표현하는 기초적인 방법으로 널리 사용된다.

6. GloVe

GloVe는 스탠포드 대학교에서 개발한 단어 임베딩 기법으로, 단어 간의 공기 행렬(co-occurrence matrix)을 사용하여 임베딩을 학습한다. GloVe는 전체 말뭉치에서 단어 쌍 간의 공기 빈도를 사용하여 단어 간의 관계를 모델링한다. 주요 특징은 단어 간의 전역적 통계 정보를 반영하여 임베딩을 학습한다는 점이다.

7. Word2Vec

Word2Vec는 2013년 구글에서 발표한 단어 임베딩 기술로, 단어를 벡터 공간에 매핑하는 기법이다. Word2Vec에는 크게 두 가지 모델이 있다:

  • CBOW (Continuous Bag of Words): 주변 단어들을 입력으로 받아 중심 단어를 예측하는 방식이다.
  • Skip-Gram: 중심 단어를 입력으로 받아 주변 단어들을 예측하는 방식이다.

Word2Vec의 핵심 아이디어는 단어의 의미가 벡터 공간에서 가깝게 배치된다는 것이다. 예를 들어, "king" - "man" + "woman" = "queen"과 같은 벡터 연산이 가능하다.

8. Attention 메커니즘

Attention 메커니즘은 자연어 처리(NLP)에서 모델이 입력 데이터의 중요한 부분에 더 집중할 수 있도록 하는 기법이다. 이 메커니즘은 특히 긴 문장을 처리할 때 유용하며, 단어나 문장 내에서 특정 부분에 더 많은 가중치를 부여하여, 모델이 더 중요한 정보에 집중하게 한다.

Attention 메커니즘은 Query, Key, Value라는 세 가지 구성 요소로 이루어져 있다. Query는 모델이 관심을 가지는 대상이고, Key는 입력 시퀀스의 각 요소에 대해 계산된 표현이다. Value는 최종적으로 모델이 집중할 정보를 나타낸다.

이 메커니즘은 모델이 텍스트의 중요한 부분에 집중

하게 함으로써, 긴 문장이나 복잡한 문맥에서도 정확한 이해를 가능하게 한다. Transformer와 같은 최신 NLP 모델에서 핵심 역할을 담당하며, 다양한 응용 분야에서 뛰어난 성능을 발휘하고 있다.

 

1. Transformer 모델

1. Transformer 모델 개요

Transformer 모델은 2017년 구글 연구팀이 발표한 논문 "Attention is All You Need"에서 처음 소개된 딥러닝 모델이다. 이 모델은 자연어 처리(NLP)와 기계 번역 작업에서 큰 혁신을 일으켰다. 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN)과는 달리, Transformer는 병렬 처리에 최적화되어 있어 대규모 데이터셋을 더 빠르고 효율적으로 처리할 수 있다.

Transformer 모델의 핵심은 "Attention 메커니즘"이다. Attention 메커니즘을 통해 모델은 입력 문장의 각 단어가 문장 내의 다른 단어들과의 관계를 파악할 수 있다. 이를 통해 문맥을 고려한 단어의 의미를 정확하게 이해할 수 있게 된다.

Transformer는 일반적으로 인코더(Encoder)와 디코더(Decoder) 구조로 구성된다. 인코더는 입력 문장을 벡터 형태로 변환하며, 디코더는 인코더의 출력을 기반으로 목표 출력(예: 번역된 문장)을 생성한다. 이 구조는 주로 기계 번역, 텍스트 생성, 언어 모델링 등 다양한 자연어 처리 작업에 활용된다.

2. Positional Encoding

Transformer 모델은 순서 정보가 포함되지 않은 단어 임베딩(Embedding)을 입력으로 받는다. 그러나 자연어 처리에서 단어의 순서는 매우 중요하다. 이를 해결하기 위해 Transformer에서는 Positional Encoding을 도입한다.

Positional Encoding은 단어 임베딩에 순서 정보를 추가하는 방법이다. 이는 입력 문장 내에서 각 단어의 위치를 나타내는 벡터를 생성하여, 단어의 임베딩 벡터에 더해주는 방식으로 이루어진다. 주로 사인 함수와 코사인 함수가 사용되어, 위치 정보가 지속적으로 반복되는 패턴으로 인코딩 된다.

이 방식으로 인해 Transformer는 단어 간의 순서와 관계를 학습할 수 있으며, 이를 통해 문맥을 더 잘 이해할 수 있다. 포지셔널 인코딩 덕분에 모델은 단어 간의 상대적인 위치를 파악하여 문장의 의미를 정확하게 해석할 수 있게 된다.

3. Transformer Encoding

Transformer의 Encoding 과정은 인코더(Encoder) 부분에서 이루어진다. 인코더는 입력 문장을 처리하여 일련의 벡터 표현으로 변환하는 역할을 한다. 인코더는 여러 개의 층(layer)으로 구성되며, 각 층은 두 가지 주요 구성 요소로 이루어진다.

  • Self-Attention: Self-Attention 메커니즘은 입력 문장의 각 단어가 다른 모든 단어들과의 관계를 고려하여 자신의 표현을 업데이트하는 과정이다. 이를 통해 모델은 문장의 전체 문맥을 고려할 수 있게 된다. Self-Attention은 특히 장거리 의존 관계를 모델링하는 데 매우 효과적이다.
  • 피드포워드 네트워크(Feed-Forward Network): 각 Self-Attention 층 뒤에는 피드포워드 신경망이 위치한다. 이 신경망은 Self-Attention을 거친 출력에 비선형 변환을 적용하여 더욱 풍부한 표현을 만들어낸다.

이 과정은 인코더의 각 층에서 반복되며, 입력 문장은 점차적으로 더욱 복잡하고 추상적인 벡터 표현으로 변환된다. 최종적으로 생성된 벡터는 디코더로 전달되어 목표 출력(예: 번역된 문장)을 생성하는 데 사용된다.

4. Encoder-Decoder 구조

Transformer 모델의 Encoder-Decoder 구조는 이 모델의 핵심 구성 요소 중 하나이다. 이 구조는 기계 번역과 같은 작업에서 입력 문장을 목표 문장으로 변환하는 데 사용된다.

  • 인코더(Encoder): 입력 문장을 처리하여 각 단어의 벡터 표현을 생성한다. 인코더는 입력 문장을 여러 층으로 처리하며, 각 층에서 Self-Attention과 피드포워드 네트워크를 적용하여 점점 더 추상적인 표현을 생성한다. 인코더의 출력은 입력 문장의 정보를 담고 있는 일련의 벡터들로 이루어진다.
  • 디코더(Decoder): 디코더는 인코더의 출력을 기반으로 목표 문장을 생성하는 역할을 한다. 디코더 역시 여러 층으로 구성되며, Self-Attention과 인코더-디코더 Attention 메커니즘을 활용한다. 인코더-디코더 Attention은 디코더가 입력 문장의 정보를 참조하여 목표 문장을 생성할 수 있도록 돕는다. 또한, 디코더는 이전에 생성된 단어를 기반으로 다음 단어를 예측하여 순차적으로 목표 문장을 생성한다.

이 구조를 통해 Transformer 모델은 입력 문장의 정보를 효과적으로 활용하면서도 목표 문장을 정확하게 생성할 수 있다. Encoder-Decoder 구조는 특히 기계 번역, 텍스트 생성, 대화 모델링 등에서 강력한 성능을 발휘한다.

 

2. BERT 모델

 1. BERT 모델의 개요

BERT(Bidirectional Encoder Representations from Transformers)는 구글 AI에 의해 2018년에 발표된 자연어 처리(NLP) 모델이다. BERT는 문장의 맥락을 양방향으로 이해할 수 있는 혁신적인 모델로, 기존의 NLP 모델들이 한 방향으로만 문맥을 이해하던 것과 달리, BERT는 문장의 양쪽 끝에서부터 문맥을 파악할 수 있다. 이로 인해 문장 내의 단어 간의 관계를 더 깊이 이해할 수 있게 되었다.

 2. BERT 모델의 특징

BERT의 가장 큰 특징은 양방향성이다. 기존의 RNN, LSTM, 혹은 GRU(Grated Recurrent Unit) 기반 모델들은 주로 문장을 왼쪽에서 오른쪽으로 읽으면서 문맥을 이해했다. 하지만 BERT는 문장을 양방향으로 읽음으로써 단어가 양쪽에서 제공하는 모든 문맥 정보를 활용할 수 있다. 이는 특히 문장 내에서 다의어가 존재할 때, 그 의미를 정확히 파악하는 데 큰 도움을 준다.

또한 BERT는 Transformer 구조를 사용한다. Transformer는 주목(attention) 메커니즘을 통해 문장 내의 중요한 단어에 가중치를 부여하며, BERT는 이 구조를 활용하여 문장의 복잡한 패턴을 학습한다. Transformer는 병렬 처리가 가능하다는 장점도 가지고 있어, BERT 모델은 더 빠르게 학습될 수 있다.

 

3. 마치며

자연어처리에 대한 지식을 배울 수 있는 정말 좋은 기회였고, 생각보다 자연어 처리하는 작업이 어렵다는 것을 알게 되었다.