5강. 머신러닝의 기본 요소

과소적합 : 머신러닝 모델 훈련 초기에, 훈련데이터의 손실이 낮아질수록 테스트 데이터의 손실도 낮아지는 현상
과대적합 : 이 모델을 계속 훈련하다보면, 어떤 한 지점에서 테스트 데이터의 손실이 최소를 찍고 손실이 높아지는 현상.

과대적합 현상은 훈련데이터에 이상한게 많이 섞이면 발생할 확률이 높아진다.

훈련 전에 특성 선택과정을 수행하면 어떤 특성이 모델에 유익한지 알 수 있다.

각 특성에 대해 유용성 점수를 계산하여 특정 점수 이상인 특성만 사용한다.

매니폴드 가설

MNIST 데이터의 경우 한 이미지가 2828크기의 배열로, 각 요소마다 0~255 사이의 값을 가진다. 그러므로 이미지의 경우의 수는 784^256이다. 하지만 이 모든 경우의 수 중에서 매우 적은 경우만 유효한 샘플이다. 이 경우, 가능한 모든 2828 배열로 이루어진 공간 안에서 숫자 이미지들이 매니폴드를 형성한다고 말한다.

보간(interpolation)

처음 보는 데이터포인트를 예전에 봤던 데이터포인트 중에서 가장 가까운 포인트로 이해할 수 있다. 처음 보는 이미지를 예전에 봤던 이미지 중에서 제일 비슷한 이미지로 해석한다는 뜻.(지역 일반화) 사람은 처음 가보는 장소에서도 일주일은 생존할 수 있다. (궁극 일반화)

모델은 과대적합으로 가는 적합으로 가는 과정에서 필연적으로 최적적합이 된다. 이때까지만 훈련을 시키면 이론상 최고의 모델을 만들 수 있다.

모델 평가

사용할 데이터를 훈련, 검증, 테스트의 3개로 나누는 것이다. 훈련데이터로 훈련을 진행하고, 검증데이터로 손실과 정확도를 측정하고, 테스트 데이터로 모델을 테스트한다.

데이터를 준비할때는 다음과 같은 점을 주의해야한다.

대표성 있는 데이터 예를 들어, 숫자 이미지를 분류하는 문제에서 훈련데이터에 0~7까지의 숫자만 포함되서는 안된다. 그렇기 때문에 훈련전에 데이터를 섞어준다.
시간의 방향 과거로부터 미래를 예측하는 모델에서는 데이터를 섞으면 안된다. 또한, 훈련데이터보다 테스트데이터가 미래의 것이어야한다.
데이터 중복 한 데이터셋에 같은 데이터가 두 번 등장하면 안된다.

훈련 성능 향상시키기

훈련을 진행하다보면 다음과 같은 상황에 맞닥뜨릴 수 있다.

훈련이 시작되지 않는다.
훈련은 시작되었지만, 모델이 의미있는 일반화를 달성하지 못한다.
과대적합이 되지 않을 것 같다.