[Transformer: Attention is All You Need]

Transformer 모델 개요T

Transformer는 2017년 Vaswani 외 연구진이 제안한 모델로, 순환신경망(RNN)이나 합성곱 신경망(CNN)의 한계를 극복하고자 개발되었다. 이 모델의 주요 특징은 Self-Attention 메커니즘을 중심으로 모든 입력 간의 관계를 동시에 고려하여 병렬 처리가 가능하다는 점이다.

1. Transformer 등장 배경

RNN 같은 모델은 입력 시퀀스를 순차적으로 처리했기 때문에 병렬 처리가 어려웠고, 멀리 떨어진 단어 사이의 관계를 파악하는 데 한계가 있었다. 이에 모든 단어 간의 관계를 한 번에 고려할 수 있는 Self-Attention 메커니즘을 도입하였다. 덕분에 GPU 같은 병렬 연산 환경에서 학습 속도가 획기적으로 빨라졌다.

2. Transformer 구성

Transformer는 크게 Encoder와 Decoder 두 부분으로 구성된다.

Encoder: 입력 문장을 받아 내부에서 추상적인 표현(임베딩)을 생성함.
Decoder: Encoder의 출력을 바탕으로 번역이나 문장 생성 등의 작업을 수행함.

두 모듈 모두 Self-Attention과 Feed-Forward Neural Network (FFN), 그리고 Residual Connection과 Layer Normalization을 적용하여 깊은 네트워크에서도 안정적으로 학습할 수 있도록 설계되었다.

Self-Attention의 원리

Self-Attention은 입력 시퀀스 내 각 단어가 다른 모든 단어와의 관계를 살펴보며, 중요한 정보를 선택적으로 강조하는 메커니즘이다. 예를 들어 “나는 학교에 갔다”라는 문장에서 “나는”과 “갔다” 사이의 관계뿐 아니라 “학교”와의 연관성도 동시에 고려할 수 있게 한다.

Transformer 모델 개요T

1. Transformer 등장 배경

2. Transformer 구성

Self-Attention의 원리

핵심 수식