이미지를 포함하여, 어떤 데이터를 특정 클래스로 분류(classification) 하는 등의 판단을 하기 위해서는 가설을 세워야 합니다. 가설이라는 단어에 대해 어렵게 느낄 필요는 없습니다. 우리는 은연중에 어떤 판단을 할 때 항상 가설을 세우기 때문입니다. 예를 들어, 당신이 “친구와 오후 6시에 만나기로 했어도, 친구가 급하게 화장실을 가야만 했다면, 5분쯤 지각하는 것 정도까지는 참아줄 수 있지!” 라고 말했다고 해 봅시다. 이 말은 이렇게 해석할 수 있습니다. “상대가 급하게 화장실을 가야만 하는 경우 6시 5분까지 지각 허용” 은 당신이 화내는 기준에 대해 세운 가설입니다.
문제는 이런 가설들이 사람마다 조금씩 다를 수 있다는 데 있습니다. 마음이 여유로운 사람은 급한 사정이 있다면 30분정도는 거뜬히 기다려 줄 수 있을테고, 누군가는 정확히 6시에서 1초라도 늦으면 고래고래 소리를 지르고 말지도 모릅니다. 반대로 세상 어느 사람이든지 동의할 수 있는 부분이 존재합니다. 약속 시간인 6시 이전에 도착하는 경우는 무조건 잘 한 것입니다. 반대로, 친구가 말도 없이 1시간이나 지각해 버리는 경우는 아무도 참아줄 수 없을 겁니다.
당신이 상대방을 만나기 위해 약속 장소로 가고 있다고 해 봅시다. 친구와 오후 6시에 만나기로 했기 때문입니다. 확실한 한 가지 사실은 알고 있습니다. 6시 이전에 가면 아무 문제도 없을 것입니다. 이를 친구가 참아주는 경우에 있어 가장 확실하고 특수한 가설(most specific hypothesis) 이라고 합니다. 문제는 오늘 당신이 급한 일이 있어서 조금 늦을 것 같다는 점입니다. 친구가 급한 일이 있었던 당신의 지각을 얼마나 참아줄 수 있는 사람인지 아직 모릅니다. 진짜 운이 좋으면 6시 59분에 도착하더라도 친구가 아무렇지도 않게 환영해줄지도 모릅니다. 이러한 경우를 친구가 참아주는 경우에 있어 가장 넓은 범위의 일반적인 가설(most general hypothesis) 이라고 합니다. 가장 특수한 가설과 가장 일반적인 가설 사이에는 59분이라는 간격이 있습니다. 이를 버전 공간(version space) 라고 합니다.
그림 (참고1)
강의에 등장한 위 이미지를 통해 이해를 굳혀 봅시다. 우리는 (+) 기호를 분류해낼 수 있는 가설을 만들어야 하는 상황입니다. 가설공간은 직사각형 형태로만 그릴 수 있다는 전제 하에, 위 그림에서 가장 일반적인 가설은 가장 진한 회색 직사각형 G 입니다. 반면, 위 그림에서 가장 특수한 가설은 가장 연한 회색 직사각형 S 입니다. 그 사이의 공간 C 는 버전공간입니다.
몇 가지 개념을 더 배워 보겠습니다. 이렇게 그려낼 수 있는 다양한 공간들을 **가설 공간(hypothesis space)**이라고 합니다. 이번 설명에서 가설 공간을 그려낼 때를 다시 돌이켜 봅시다. ‘가설공간을 그릴 때에는 직사각형 형태로만 그려야 한다.’ 라는 전제조건을 걸어 주었습니다. 이러한 전제 조건을 가설 집합(hypothesis set) 에서 선택된 가설이라고 부릅니다(참고2).
그래서 머신러닝을 통해 컴퓨터에게 분류를 시키기 위해서는 다음과 같은 과정을 거쳐야 합니다. 우리가 가지고 있는 데이터를 돌아보며 가설 집합에서 가설을 골라냅니다. 위 예에서 원형으로 가설 공간을 만들 수 있도록 허락하지 않고 직사각형으로 만들라고 강제했던 것처럼, 가설 집합에서 가설을 골라내는 과정에는 인간의 경험과 직관이 개입됩니다(to1). 인간의 직관이 개입된다는 의미를 살려, 딥러닝에서는 경험적인 편향(inductive bias)이라고 부르기도 합니다(참고3,참고4). 그리고 나서 컴퓨터에 데이터와 함께 가설을 입력합니다. 예를 들어 ‘데이터1: 급한 볼일이 있고, 내가 슬픈 일이 있었던 날, 15분 늦는다면 친구가 화를 내는구나.’ ‘데이터2: 내가 슬픈 일이 있었던 날, 20분 늦는다면 친구가 화를 내는구나.’ 와 같은 관측값들과 함께 ‘친구는 내가 슬퍼 보이는지와는 별 상관없이, 급한 볼일이 있는지만 화를 내는 기준으로 삼는 것 같다’ 라는 가설이 입력되는 셈입니다. 따라서 머신러닝을 통해 분류작업이 가능하게 된다는 것은, 가설과 데이터를 바탕으로 버전 공간에서 가장 적절한 분류 경계가 찾아지는 것, 즉 **최종 가설(final hypothesis)**이 찾아지는 것을 의미합니다.
version space 를 정의할 때 노이즈(혹은 outlier) 는 전혀 고려되지 않는 대상인걸까
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.
from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.