최적화 방법4- AdaGrad앞에서 모멘텀(Momentum)까지 정리했다. 이어서 AdaGrad에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류 2.1 경사하강법(GD) 2.2 확률적 경사하강법(SGD) 2.3 Momentum 2.4 AdaGrad 2.5 RMSProp 2.6 Adam 2. 종류 2.4 AdaGrad - AdaGrad는 Adaptive Gradient의 줄임말로, 기울기 제곱의 누적합을 사용해서 학습률을 조절(자주 업데이트되면 학습률 감소, 드물게 업데이트되면 학습률 유지)하는 방법이다. - 이 역시 수식으로 설명해보고자 한다. AdaGrad의 가중치 매개변수 업데이트 공식은 아래와 같다. $h \leftarr..