모두 기존의 grdient descent에서 발생할 수 있는 문제점들을 보완하여. 각각의 의도를 가지고 gradient descent를 조금씩 변형시킨 것. 그래서 각각의 방식이 무엇을 의도하고 어떻게 바꿨는지 살펴봅시다. AdaGrad기존의 GD에서 무엇을 바꿨는지. 기존의 GD는 여기서 학습률 α는 update 되는 정도를 결정하는 값으로, 이 값이 고정되어 있는데, 이게 비효율적입니다. 왜? 학습률이 너무 작으면 빠르게 update 해야 하는 학습 초기부터 시간이 오래 걸린다. 학습률이 너무 크면 0근처에서 천천히 update해야 하는데 optimal point를 놓칠 수 있다. 그래서 초기에는 update 되는 정도를 크게 하고학습 뒤쪽으로 갈수록 점차 update 되는 정도를 작게 할 필요..