왜 single split으론 부족한가
단일 held-out validation set이 모델 품질의 noisy estimator. small이나 imbalanced 데이터에선, noise가 고르려는 모델 사이 차이보다 클 수 있어. K-fold cross-validation이 multiple split을 평균 내서 비교가 정직해.
중요한 세 flavor
- StratifiedKFold — classification에 fold 별 class 비율 보존.
- GroupKFold — 한 group(user, session, patient)의 모든 row를 같은 fold 안에 유지.
- TimeSeriesSplit — 과거에서 train, 미래에서 validate. 절대 반대 X.
CV score 정직하게 읽기
fold 사이 mean과 std 항상 보고. std가 후보 모델 두 개 사이 gap의 절반이면 비교가 noise야. fold 늘리거나 multiple seed 평균 내거나, 아직 구분 못 한다고 인정해.