7강: Training Neural Networks II

Optimization

<aside> 💡 - 지난 시간에 이어 좀 더 fancy✨ 한 optimization에 대해 알아보자

</aside>

Stochastic Gradient Descent (확률적 경사 하강법)

가장 간단한 최적화 알고리즘

while True:
	dx = compute_gradient(x)
	x += learning_rate * dx

초기에 설정한 학습률(step_size)를 이용하여 loss가 최소가 되는 방향으로 가중치를 업데이트
발생 가능한 문제
- 문제 1) 손실함수가 모든 방향에서 동일하지 않은 경우 (비등방성 손실함수, Poor conditioning)
  - 비등방성이란?
  - 손실 함수가 모든 방향에서 동일하지 않다면 → 가중치 간 업데이트의 속도 차가 클 것 → 손실 함수가 한 방향으로는 엄청나게 민감한 반면, 다른 방향으로는 덜 민감
- 문제 2) Local minima / saddle points
  - Local minima: 최저가 아닌 극소에서 가중치 업데이트가 끝난다
  - saddle points: 변곡점. 근처에서 가중치 update 매우 느려지다가 멈춰짐 + 고차원 공간일수록 빈번하게 발생하는 문제
- 문제 3) noisy estimate (부정확한 추정값)
  - 손실함수를 계산할 때는 엄청나게 많은 training set 각각의 loss를 전부 계산해야 함 (현실적으로 불가능)
  - 그렇기 때문에, 실제로는 mini-batch의 data 로 실제 loss를 추정
    
    ⇒ gradient의 부정확한 추정값만을 구할 뿐, 정확한 gradient를 얻을 수 없다
    
    ⇒ 수렴이 느릴 수 있다
즉 we want…
- 기울기가 0이어도 update를 계속할 수 있는 힘
- 방향에 따라 민감하게 반응하지 않는 힘
- 수렴 속도 향상

SGD + Momentum

기울기가 0이어도 update를 계속할 수 있는 방법

vx = 0 # velocity의 초기값은 언제나 0
while True:
	dx = compute_gradinet(x)
	vx = rho * vx + dx # rho: 마찰 계수. 기울기가 너무 빠르게 변하는 것을 제한하기 위함
	x += learning_rate * vx

가중치 update 시, 직전 step의 속도(velocity) 까지 고려
- 언덕에 공을 굴렸을 때, 공이 최저점에서 멈추지 않고 좀 더 굴러가는 감성…
- 즉, 최솟값의 방향으로는 수렴을 가속화 관련 없는 방향으로는 변동을 줄인다.
장점)
- SGD 의 local minima, saddle points 문제 해결
- poor conditioning에서 좀 더 향상된… 성능 (지그재그를 상쇄시킨다)
- 수렴 속도 향상
단점)
- hyper parameter (rho) 가 하나 더 생김. (성가신게 하나 더 생겼다)

Nesterov momentum

momentum 방식을 약간 더 업그레이드 한 버전

Untitled