과대적합 현상은 훈련데이터에 이상한게 많이 섞이면 발생할 확률이 높아진다.

훈련 전에 특성 선택과정을 수행하면 어떤 특성이 모델에 유익한지 알 수 있다.

매니폴드 가설

MNIST 데이터의 경우 한 이미지가 2828크기의 배열로, 각 요소마다 0~255 사이의 값을 가진다. 그러므로 이미지의 경우의 수는 784^256이다. 하지만 이 모든 경우의 수 중에서 매우 적은 경우만 유효한 샘플이다. 이 경우, 가능한 모든 2828 배열로 이루어진 공간 안에서 숫자 이미지들이 매니폴드를 형성한다고 말한다.

보간(interpolation)

처음 보는 데이터포인트를 예전에 봤던 데이터포인트 중에서 가장 가까운 포인트로 이해할 수 있다. 처음 보는 이미지를 예전에 봤던 이미지 중에서 제일 비슷한 이미지로 해석한다는 뜻.(지역 일반화) 사람은 처음 가보는 장소에서도 일주일은 생존할 수 있다. (궁극 일반화)

모델은 과대적합으로 가는 적합으로 가는 과정에서 필연적으로 최적적합이 된다. 이때까지만 훈련을 시키면 이론상 최고의 모델을 만들 수 있다.

모델 평가

사용할 데이터를 훈련, 검증, 테스트의 3개로 나누는 것이다. 훈련데이터로 훈련을 진행하고, 검증데이터로 손실과 정확도를 측정하고, 테스트 데이터로 모델을 테스트한다.

데이터를 준비할때는 다음과 같은 점을 주의해야한다.

훈련 성능 향상시키기

훈련을 진행하다보면 다음과 같은 상황에 맞닥뜨릴 수 있다.

  1. 훈련이 시작되지 않는다.
  2. 훈련은 시작되었지만, 모델이 의미있는 일반화를 달성하지 못한다.
  3. 과대적합이 되지 않을 것 같다.