지도학습은 train → output 를 통해 test → output 를 만드는 것.
output 은 주식 보유기간이고
train 으로 들어갈 수 있는것이 구매일의 정보이다.
train set 데이터는
- 2016년 1월 4일 부터 2020년 12월 31일 중 주식을 구매해서 (1227일)
- 1227 일 이내로 판매한 고객
test set 데이터는
- 2016년 1월 4일부터 2020년 12월 31일 중 주식을 구매해서 (1227일)
- 1227 + 146일 이내로 판매한 고객 (2021년 5월 26일), 근데 설명에는 7월 31일이라고 되어있다.
Data leakage 하면 안됨.
- 고객 한명 한명의 특성 만들기
- 종목 하나하나의 특성 만들기
보유한 기간 내내의 feature 를 만들 수 없을까?
- 거래량이 빵 터지는 시기를 버텼으면 오래 보유 할것으로 판단됨
일단은 구매일의 데이터를 사용해보겠음