optimization 8

[CS231n] Lecture6: Training Neural Networks I

Lecture6: Training Neural Networks I- CS231n 강의 [1]를 듣고 공부한 내용을 나름대로 정리했다.- 글에 있는 모든 그림, 표, 예시는 [2]에서 가져왔다.  ~ 목차 ~1. Activation Functions    1.1 Sigmoid    1.2 Tanh    1.3 ReLU    1.4 Leaky ReLU    1.5 ELU    1.6 Maxout    1.7 정리2. Data Preprocessing3. Weight Initialization    3.1 랜덤 초기화    3.2 특정 수로 초기화    3.3 Xavier 초기화    3.4 He 초기화4. Batch Normalization5. Babysitting the Learning Process   ..

[CS231n] Lecture3: Loss Functions and Optimization

Lecture3: Loss Functions and Optimization- CS231n 강의 [1]를 듣고 공부한 내용을 나름대로 정리했다.CS231n 강의 [1] - 글에 있는 모든 그림과 표는 [2]에서 가져왔다. ~ 목차 ~1. Loss Function    1.1 Data loss        1.1.1 Multiclass SVM Loss (Hinge Loss)        1.1.2 Cross-entropy Loss (Softmax)        1.1.3 SVM vs. Softmax    1.2 Regularization2. Optimization    2.1 Random Search    2.2 Follow the slope        2.2.1 Numerical gradient     ..

[논문 속 수학] Adam과 관련된 최적화 방법들(RMSProp, AdaGrad)

Adam과 관련된 최적화 방법들(RMSProp, AdaGrad) Adam 논문의 section 5에 있는 AdaGrad의 수식이 그냥 보니 잘 이해가 안 돼서 하나하나 짚고 넘어가고자 한다.Section 5에서는 Adam과 관련된 최적화 방법들을 설명한다.  그리 길지 않으니 이참에 section 전체를 해석하면서 수식도 정리해보겠다.   ~ 목차 ~1. 관련된 최적화 방법들  1.1 RMSProp  1.2 AdaGrad 1. 관련된 최적화 방법들 - Adam과 직접적으로 관련이 있는 최적화 방법은 RMSProp과 AdaGrad이다. - 이 외에 Stochastic한 최적화 방법으로는 vSGD, AdaDelta, Natural Newton Method 가 있고, 이들은 모두   기울기 정보(first-o..

[기본이론] 최적화 방법6- Adam (수식o)

최적화 방법6- Adam앞에서 RMSProp까지 정리했다. 이어서 Adam에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam  2. 종류   2.6 Adam- Adam은 Adaptive Moment Estimation의 약자로, ①Momentum의 장점과 ②RMSProp의 장점을 결합한 방법이다.    ① Momentum의 장점: 기울기 방향성 보존(안정성)    - Momentum의 기본 수식은 $v \leftarrow \alpha v - \eta \frac{\partial L}{\partial ..

[기본이론] 최적화 방법5- RMSProp (수식o, 그래프o)

최적화 방법5- RMSProp앞에서 모멘텀(Momentum)까지 정리했다. 이어서 RMSProp에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam  2. 종류   -AdaGrad의 단점(학습이 진행될수록 기울기 제곱값이 누적되어 학습률이 작아짐)을 개선하기 위해 RMSProp이 제안되었다.  2.5 RMSProp  - RMSProp은 Root Mean Square Propagation의 줄임말로, 기울기 제곱의 지수 이동 평균을 사용해서 학습률을 조절하는 방법이다. (c.f. 지수 이동 평균: 최근..

[기본이론] 최적화 방법4- AdaGrad (수식o)

최적화 방법4- AdaGrad앞에서 모멘텀(Momentum)까지 정리했다. 이어서 AdaGrad에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam 2. 종류   2.4 AdaGrad  - AdaGrad는 Adaptive Gradient의 줄임말로, 기울기 제곱의 누적합을 사용해서 학습률을 조절(자주 업데이트되면 학습률 감소, 드물게 업데이트되면 학습률 유지)하는 방법이다.   - 이 역시 수식으로 설명해보고자 한다. AdaGrad의 가중치 매개변수 업데이트 공식은 아래와 같다. $h \leftarr..

[기본이론] 최적화 방법3- Momentum (수식o)

최적화 방법3- Momentum앞에서 확률적 경사하강법(SGD)까지 정리했다. 이어서 모멘텀(Momentum)에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam3. 정리 2. 종류   2.3 Momentum  - 모멘텀(Momentum)은 운동량이라는 뜻으로, 이전의 이동방향을 계속 유지하려고 하는 성질, 즉 관성을 뜻한다. 최적화에서는 이러한 느낌을 살려서 가중치 매개변수를 갱신할 때 이전 기울기를 일부 반영하면서 현재 기울기에 따라 새로운 방향으로 이동하도록 만든다.  - 모멘텀을 도입하면 SG..

[기본이론] 최적화 방법2- Stochastic Gradient Descent (수식o)

최적화 방법2- Stochastic Gradient Descent앞에서 경사하강법(GD)까지 정리했다. 이어서 확률적 경사하강법(SGD)에 대해서 정리하려고 한다. ~ 목차 ~0. 서론- 왜 갑자기 최적화를 공부하고 있는가1. 최적화란2. 종류  2.1 경사하강법(GD)  2.2 확률적 경사하강법(SGD)  2.3 Momentum  2.4 AdaGrad  2.5 RMSProp  2.6 Adam3. 정리 2. 종류   2.2 확률적 경사하강법(SGD)  - Stochastic Gradient Descent, SGD  - Stochastic의 의미: 데이터를 무작위로 골라냈다는 뜻  - 기본 아이디어는 GD와 비슷하다. 데이터 추출 방식을 바꾼 것 뿐이다. GD는 1번 이동할 때 모든 데이터를 사용해서 $w..