불균형 데이터 처리
- Under sampling
- Over sampling
- Algorithm Over sampling
- Cost-sensitive learning
- xgboost : scale_pos_weight
- lightgbm : is_unbalance(자동) / scale_pos_weight(수동)
- catboost: auto_class_weights = ‘Balanced’(자동)
추천하는 방식은 Algorithm Over sampling 또는 Cost-sensitive learning 방식이다.
불균형 클래스 분류(Imbalanced Classification)를 위한 4가지 방법
데이터 결측치 처리
Data Imputation(데이터 결측치 처리)
결측치(Missing values, Nulls) 처리에 대해서 (Imputation): SimpleImputer, IterativeImputer, MICE ..
adkal.com
데이터 합병
train_base, train_static_0 : 특별한 처리없이 concat
나머지 데이터프레임 : case_id로 join
- case_id가 존재하지 않음 nan 값 그대로 → 나중에 과도하게 nan값이 많으면 해당 column 버림
- case_id가 여러 개 존재하는 경우 → 여러 개의 열 중 선택적으로 데이터를 뽑아내서 하나의 case_id의 행들을 채움