기본기 다지기/최적화 6

[기본이론] 최적화 방법6- Adam (수식o)

최적화 방법6- Adam앞에서 RMSProp까지 정리했다. 이어서 Adam에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam  2. 종류   2.6 Adam- Adam은 Adaptive Moment Estimation의 약자로, ①Momentum의 장점과 ②RMSProp의 장점을 결합한 방법이다.    ① Momentum의 장점: 기울기 방향성 보존(안정성)    - Momentum의 기본 수식은 $v \leftarrow \alpha v - \eta \frac{\partial L}{\partial ..

[기본이론] 최적화 방법5- RMSProp (수식o, 그래프o)

최적화 방법5- RMSProp앞에서 모멘텀(Momentum)까지 정리했다. 이어서 RMSProp에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam  2. 종류   -AdaGrad의 단점(학습이 진행될수록 기울기 제곱값이 누적되어 학습률이 작아짐)을 개선하기 위해 RMSProp이 제안되었다.  2.5 RMSProp  - RMSProp은 Root Mean Square Propagation의 줄임말로, 기울기 제곱의 지수 이동 평균을 사용해서 학습률을 조절하는 방법이다. (c.f. 지수 이동 평균: 최근..

[기본이론] 최적화 방법4- AdaGrad (수식o)

최적화 방법4- AdaGrad앞에서 모멘텀(Momentum)까지 정리했다. 이어서 AdaGrad에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam 2. 종류   2.4 AdaGrad  - AdaGrad는 Adaptive Gradient의 줄임말로, 기울기 제곱의 누적합을 사용해서 학습률을 조절(자주 업데이트되면 학습률 감소, 드물게 업데이트되면 학습률 유지)하는 방법이다.   - 이 역시 수식으로 설명해보고자 한다. AdaGrad의 가중치 매개변수 업데이트 공식은 아래와 같다. $h \leftarr..

[기본이론] 최적화 방법3- Momentum (수식o)

최적화 방법3- Momentum앞에서 확률적 경사하강법(SGD)까지 정리했다. 이어서 모멘텀(Momentum)에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam3. 정리 2. 종류   2.3 Momentum  - 모멘텀(Momentum)은 운동량이라는 뜻으로, 이전의 이동방향을 계속 유지하려고 하는 성질, 즉 관성을 뜻한다. 최적화에서는 이러한 느낌을 살려서 가중치 매개변수를 갱신할 때 이전 기울기를 일부 반영하면서 현재 기울기에 따라 새로운 방향으로 이동하도록 만든다.  - 모멘텀을 도입하면 SG..

[기본이론] 최적화 방법2- Stochastic Gradient Descent (수식o)

최적화 방법2- Stochastic Gradient Descent앞에서 경사하강법(GD)까지 정리했다. 이어서 확률적 경사하강법(SGD)에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam3. 정리 2. 종류   2.2 확률적 경사하강법(SGD)  - Stochastic Gradient Descent, SGD  - Stochastic의 의미: 데이터를 무작위로 골라냈다는 뜻  - 기본 아이디어는 GD와 비슷하다. 데이터 추출 방식을 바꾼 것 뿐이다. GD는 1번 이동할 때 모든 데이터를 사용해서 $w..

[기본이론] 최적화 방법1- Gradient Descent (수식o)

최적화 방법1- Gradient Descent ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam3. 정리 0. 서론- 왜 갑자기 최적화를 공부하고 있는가- 논문들을 읽으면서 기본기가 부족하다는 것이 다시 느껴졌다. 최적화에 대해서 정확히 알지 못했다. 내가 아는 것은.. 최적화가 기울기를 이용해서 손실함수를 최소로 하는 방법이고, 종류로는 SGD, Adam이 있지만 최근에는 대부분 Adam을 사용한다는 정도 뿐이었다. 그래서 든든한 기본서 『밑바닥부터 시작하는 딥러닝』을 다시 꺼내들었다.- 읽으면서 최적화 갱신 경로 부분이 ..