Transformer는 2017년 Vaswani 외 연구진이 제안한 모델로, 순환신경망(RNN)이나 합성곱 신경망(CNN)의 한계를 극복하고자 개발되었다. 이 모델의 주요 특징은 Self-Attention 메커니즘을 중심으로 모든 입력 간의 관계를 동시에 고려하여 병렬 처리가 가능하다는 점이다.
RNN 같은 모델은 입력 시퀀스를 순차적으로 처리했기 때문에 병렬 처리가 어려웠고, 멀리 떨어진 단어 사이의 관계를 파악하는 데 한계가 있었다. 이에 모든 단어 간의 관계를 한 번에 고려할 수 있는 Self-Attention 메커니즘을 도입하였다. 덕분에 GPU 같은 병렬 연산 환경에서 학습 속도가 획기적으로 빨라졌다.
Transformer는 크게 Encoder와 Decoder 두 부분으로 구성된다.
두 모듈 모두 Self-Attention과 Feed-Forward Neural Network (FFN), 그리고 Residual Connection과 Layer Normalization을 적용하여 깊은 네트워크에서도 안정적으로 학습할 수 있도록 설계되었다.

Self-Attention은 입력 시퀀스 내 각 단어가 다른 모든 단어와의 관계를 살펴보며, 중요한 정보를 선택적으로 강조하는 메커니즘이다. 예를 들어 “나는 학교에 갔다”라는 문장에서 “나는”과 “갔다” 사이의 관계뿐 아니라 “학교”와의 연관성도 동시에 고려할 수 있게 한다.

