Optimizer 란?

Optimization 이란?

최적화과정 {: .center}

⇒ 위의 과정을 최적화 과정이라 한다.

Optimizer 발달계보 {: .center}

Local Minima 에 빠졌을 때 이전에 떨어지던 속도를 살려 빠져나가보자! 라는 아이디어를 갖는다.

Momentum {: width=“600”}{: .center}

You can't use 'macro parameter character #' in math mode\rho $$ - 마찰력을 의미한다. 일반적으로 0.9 또는 0.99의 값을 이용한다. - gradient와 이전 속도값을 적은량 반영시켜 Momentum을 구한다. - Momentum에 학습률을 적용시켜 업데이트 시킨다. 출처 : CS231n Lecture7 Training Neural Net 2 ## Nesterov Momentum - Momentum의 경우 현재 위치에서 gradient와 기존의 가지고 있던 momentum을 합친 Optimizer이다. - Momentum을 아래 그림의 -10에서 언덕을 내려가는 공이라 비유해보자. Momentum은 역삼각형을 거쳐 언덕을 다 내려가고 나서 최저점인 0을 지나 다시 올라갔다 속도를 줄이며 다시 최저점으로 향한다. ![graph](https://user-images.githubusercontent.com/64977390/208243570-8e42a52e-75ac-430f-84a7-52e70e8cdbee.png){: width="400"}{: .center} - Nesterov Momentum은 올라갔다 다시 내려오지 말고 미리 속도를 줄이자는 아이디어를 갖는다. Nesterov Momentum은 미래 위치를 추정하여 그 위치에서 기울기를 구한다.

v_{t+1}=\rho v_t - \alpha\nabla f(x_t+\rho v_t) \~\

w_{t+1} = w_t+v_{t+1}

You can't use 'macro parameter character #' in math mode 1. 현재 momentum과 위치를 합친 미래 위치를 찾아 gradient를 구한다. (한 걸음 미리 가본 위치의 gradient) 2. 구한 gradient를 현재 momentum과 빼서 momentum을 업데이트한다. 3. momentum과의 합으로 미래 위치를 업데이트한다. ![Nesterov method](https://user-images.githubusercontent.com/64977390/208243587-fc77a179-78ed-4ca8-8e84-af318d721de9.png){: width="600"}{: .center} 출처 : [https://stats.stackexchange.com/questions/179915/whats-the-difference-between-momentum-based-gradient-descent-and-nesterovs-acc](https://stats.stackexchange.com/questions/179915/whats-the-difference-between-momentum-based-gradient-descent-and-nesterovs-acc) ## Adagrad(Adaptive Gradient) - 적응적으로 Gradient를 적용하는 것을 learning rate에 따라서 조정하는 Optimizer이다. - 지금까지 비교적 많이 업데이트된 변수는 적게, 적게 업데이트된 변수는 많이 업데이트하는 아이디어를 갖는다.

G_{t+1}=G_t+(g_{t+1})^2 \~\

w_{t+1}=w_t-\frac \alpha {\sqrt{G_{t+1}+e}}g_{t+1}

g_t

G_t

You can't use 'macro parameter character #' in math mode - 이전 gradient의 적용을 계속 축적시켜 루트를 씌워 분모로 두어 계산한다. - 이전까지 업데이트된 총량이 크다면 분모가 커져 업데이트하는 양이 감소하고 반복이 계속될수록 G가 계속 증가하면서 가중치 변화정도가 매우 작아진다. ## RMSProp Adagrad의 단점을 보완한 optimizer다. Adagrad의 경우 gradient를 제곱해 누적하고 업데이트가 계속될수록 업데이트 크기는 0에 수렴한다. 이를 RMSProp은 과거값의 반영을 점차 줄이고 최근값의 반영을 늘이는 **지수이동평균(Exponential Moving Average)**을 이용하여 보완했다. - 누적된 업데이트의 총량과 최근 업데이트한 양을 고려해 가중치를 조정한다.

G_{t+1}=\gamma G_t+(1-\gamma)(g_{t+1})^2 \~\

w_{t+1}=w_t-\frac \alpha {\sqrt{G_{t+1}+\epsilon}}g_{t+1}

\gamma

\alpha

\epsilon

지 금 까 지 업 데 이 트 한 누 적 양 도 고 려 하 지 만 최 근 업 데 이 트 한 양 을 더 많 이 고 려 한 다

\sqrt{G_{t+1}+\epsilon}

You can't use 'macro parameter character #' in math mode ## Adam(Adaptive Moment Estimation) - RMSProp + Momentum의 형태로 두 알고리즘의 장점을 모아 만든 Optimizer이다. - 가장 흔하게 이용된다. - Adam에 대해 잘 설명해놓은 블로그가 있어 첨부한다. (추후 정리) - [https://velog.io/@yookyungkho/딥러닝-옵티마이저-정복기부제-CS231n-Lecture7-Review](https://velog.io/@yookyungkho/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EC%98%B5%ED%8B%B0%EB%A7%88%EC%9D%B4%EC%A0%80-%EC%A0%95%EB%B3%B5%EA%B8%B0%EB%B6%80%EC%A0%9C-CS231n-Lecture7-Review)