Transformer의 encoder 및 decoder 구조에 대해 알아보고 decoder에서 사용되는 Masked self-attention 기법을 정리합니다. 최종적으로 이 transformer가 어떻게 다음 단어를 예측하게 되는지 이해해 봅시다.encoding vector란? (용어 정리) 각 단어가 input으로 들어올 때 self-attention 계산 결과로 각각 input에 대응되는 encoding vector가 출력됩니다. 이때 이 encoding vector가 정확하게 무엇을 뜻하는지 self-attention 과정을 간단하게 살펴봅시다. input으로 X1 ,X2 가 주어진다면 query도 역시 q1, q2로 존재할 것입니다. 이때 q1을 기준으로 attention을 구해 위와 같..