전체 글 31

Transformer : encoder 및 decoder (Masked Self-attention)

Transformer의 encoder 및 decoder 구조에 대해 알아보고  decoder에서 사용되는 Masked self-attention 기법을 정리합니다. 최종적으로 이 transformer가 어떻게 다음 단어를 예측하게 되는지 이해해 봅시다.encoding vector란? (용어 정리) 각 단어가 input으로 들어올 때 self-attention 계산 결과로  각각 input에 대응되는 encoding vector가 출력됩니다. 이때 이 encoding vector가 정확하게 무엇을 뜻하는지 self-attention 과정을 간단하게 살펴봅시다.  input으로 X1 ,X2 가 주어진다면 query도 역시 q1, q2로 존재할 것입니다. 이때 q1을 기준으로 attention을 구해 위와 같..

Transformer 2025.03.01

Transformer : Multi-head Attention (Add & Norm)

self-attention 연산과정에 대한 이해를 기반으로  Multi-head Attention이 무엇인지  Add&Norm 연산은 무엇인지 정리합니다.즉 위의 한 블럭을 이해하는 것을 목표로 합니다.self-attention은 무엇이었는지?2025.01.22 - [데이터 마이닝] - Transformer란? (self-attention) Transformer란? (self-attention)seq2seq 모델을 간단하게 살펴봄으로써 attention mechanism을 이해한 후self attention을 이해해 봅시다. 언어 모델을 "번역"이라는 task에 사용한다면 transformer 이전에는  RNN 혹은 LSTM을 기반으로 한 모델tmddn0512.tistory.comMulti-head At..

Transformer 2025.02.24

Transformer란? (self-attention)

seq2seq 모델을 간단하게 살펴봄으로써 attention-mechanism을 이해한 후self-attention을 이해해 봅시다. 언어 모델을 "번역"이라는 task에 사용한다면 transformer 이전에는  RNN 혹은 LSTM을 기반으로 한 모델에 attention-mechanism을 적용한 seq2seq 모델을 활용했었습니다. seq2seq 및 attention-mechanism2024.12.09 - [RNN(Recurrent neural network)] - Seq2seq 및 attention mechanism Seq2seq 및 attention mechanismseq2seq의 목적과 구조에 대해 이해해 보고 seq2seq에 attention mechanism을 적용해 봄으로써 attenti..

Transformer 2025.01.22

ResNet이란?

ResNet이란cnn 기반 모델로써 gradient vanisning 문제 해결 및optimal depth 문제를 해결하기 위해 사용됩니다. 각각의 문제 상황을 먼저 알아봅시다.gradient vanishing gradient 계산을 위해 layer를 걸쳐 chain rule 계산을아래와 같이 쭉 이어 나가다 보면  0과 1 사이의 값으로 mapping 해주는 활성화 함수(sigmoid) 특성상 그 곱이 0에 가까워져 update가 일어나지 않는 문제가 발생합니다. 물론 relu 활성화 함수로 이것을 어느정도 방지할 수는 있었지만layer 자체가 과도하게 깊어진다면 vanishing 문제를 본질적으로 해결할 수 없습니다.optimal depth문제변수마다 optimal depth가 다를 수 있습니다. 가..

GoogLeNet(Inception-v1)이란?

cnn 모델을 기반으로 하여 성능 개선을 위해서 여러 가지를 발전시킨 모델입니다. (cnn이란?)2024.11.19 - [CNN (Convolutional neural network)] - CNN (Convolutional neural network) 이란? (1)2024.11.28 - [CNN (Convolutional neural network)] - CNN (Convolutional neural network) (stride, padding ,pooling)기존 cnn 대비, GoogLeNet의 특징을 아래와 같이 정리할 수 있습니다. 1.vanishing gradeint 해결을 위한 Auxiliary classifier 사용2.filter의 병렬적 사용 및 1x1 filter 사용3.Factori..

AutoEncoder란?(Generative model이란?)

Autoencoder란Generative model을 구성하는 구조에 사용되는또 다른 network 구조를 말합니다. 즉 Autoencoder란 그 자체로 생성 모델을 뜻하는 것은 아니며 생성 모델에 사용되는 별개의 network 구조라고 할 수 있습니다. 그래서 Generative model이 무엇인지 간단하게 먼저 살펴봅시다. generative model의 학습 과정을 간단하게 아래와 같이 표현할 수 있습니다. 1. 입력 데이터로부터 데이터의 분포를 학습합니다.2. 학습된 분포에서 다시 표본을 sampling 하여 결과를 출력합니다. 가령 사람 얼굴 이미지 데이터 2000개를 input으로 넣으면이 2000개 image가 어디로부터 왔는지 이 이미지 data의 분포를 학습합니다.이 추정한 분포를 실..

Seq2seq 및 attention mechanism

seq2seq의 목적과 구조에 대해 이해해 보고 seq2seq에 attention mechanism을 적용해 봄으로써 attention mechanism이 무엇인지 의도와 방식을 이해해 봅시다.seq2seq란?주로 번역에 쓰이는 다음 단어를 예측하기 위한 모델입니다. seq2seq 모델은 RNN 또는 lstm모델에 기반하는데 단순한 RNN의 구조로도 다음 단어를 예측할 수 있는 모델을 구성할 수 있었습니다. 그래서 단어를 예측하는 단순한 RNN의 구조를 간단하게만 먼저 살펴봅시다. 위에서 볼 수 있듯이 전 cell에서의 출력값을 input date로 입력하면 출력값으로 다음 단어가 나오고 이 값을 다시 다음 cell의 input으로 입력하는과정을 반복해서 최종 정답 값을 output으로 출력하는 구조였습..

Multilayer RNN, biRNN(bidirectional)이란?

기존의 RNN이 가지는 단점을 완화하기 위한 모델인 multilayer RNN 과 biRNN이 무엇인지 살펴봅시다. 우선 기존의 RNN이 가지는 단점이 무엇이었는지.long term dependency 문제가 있었습니다.-(참고)2024.12.07 - [RNN(Recurrent neural network)] - LSTM(Long Short Term Memory) 즉 초기의 입력값으로 집어넣은 값이 뒤쪽으로 연산이 진행될수록 그 정보가 모델의 최종 output에 잘 전달이 되지 않는 문제를 말합니다. 그래서 이 문제를 해결하기 위한 방법으로  multilayer RNN부터 살펴봅시다.multilayer RNN기존의 RNN은 어떤 구조였는지.. 위에서 보는 many to many RNN은 입력 데이터가 주어..

RNN 기반 언어모델

RNN이란?2024.12.05 - [RNN(Recurrent neural network)] - RNN(Recurrent neural network)이란? RNN(Recurrent neural network)이란?일반적으로는 모델에 데이터 1개가 들어오면 그에 대응하는 output이 하나 출력됩니다.가령 class 분류 문제에서 입력 데이터를 넣으면대응되는 class 예측 값이 output으로 출력됐었는데. 입력 데이tmddn0512.tistory.com RNN을 언어 모델로 사용하려면어떤 구조로 어떤 학습과정을 거치게 되며최종적으로 어떤 값을 예측하고자 하는 모델인지 하나씩 살펴봅시다. 예시 문장 what will the fat cat sit on이라는 문장이 있다고 해봅시다. 이때 what will t..

LSTM(Long Short Term Memory)

기존의 RNN의 구조를 간단하게 보면서 RNN의 문제점과 함께 해당 문제점을 개선하기 위해 등장한 LSTM을 정리합니다. 기존의 RNN은 어떻게 구성되었는지 RNN 의 구성요소인 cell을 보면 시간축을 따라 반복적으로 데이터가 들어오는데하나의 cell에서는 t 시점에서의 데이터인 Xt,이전 층의 hidden 값인 Ht-1 각각에 weight를 걸어 tanh 활성화 함수를 거쳐 t 시점에서의 hidden 값인 Ht를 구성했었습니다.2024.12.05 - [RNN(Recurrent neural network)] - RNN(Recurrent neural network)이란?이런 cell들이 여러 개 모여 아래와 같이 Rnn 구조 전체를 구성하게 되는데.. 여기서 문제가 되는 point는 바로 x1이라 할 수..