불균형 데이터 처리

Under sampling
Over sampling
Algorithm Over sampling
- SMOTE
- ADASYN
Cost-sensitive learning
- xgboost : scale_pos_weight
- lightgbm : is_unbalance(자동) / scale_pos_weight(수동)
- catboost: auto_class_weights = ‘Balanced’(자동)

추천하는 방식은 Algorithm Over sampling 또는 Cost-sensitive learning 방식이다.

불균형 클래스 분류(Imbalanced Classification)를 위한 4가지 방법

데이터 결측치 처리

처리 X - 일부 알고리즘 사용(ex. xgboost)
중앙값, 평균값 대체
- numerical data에 사용
최빈값, 0, 상수값 대체
- categorical data
K-NN
- 이상치에 민감
MICE(Multivariate Imputation by Chained Equation)
- 연속형, 이진형, 범위형 패턴도 처리 가능
딥러닝 이용 - 날짜 + 범주형
- 범주형이나 숫자가 아닌 자료형에 효과적

Data Imputation(데이터 결측치 처리)

결측치(Missing values, Nulls) 처리에 대해서 (Imputation): SimpleImputer, IterativeImputer, MICE ..

데이터 합병

train_base, train_static_0 : 특별한 처리없이 concat

나머지 데이터프레임 : case_id로 join

case_id가 존재하지 않음 nan 값 그대로 → 나중에 과도하게 nan값이 많으면 해당 column 버림
case_id가 여러 개 존재하는 경우 → 여러 개의 열 중 선택적으로 데이터를 뽑아내서 하나의 case_id의 행들을 채움