missing이 의미를 갖는다
missingness가 정보를 담아. 어떤 row가 missing 인지 패턴이 종종 target과 상관관계가 있어. imputed value 옆에 binary `was_missing` indicator를 추가하면 그 signal이 보존돼.
imputation 전략, lift 순
- 도메인 특화 fill ("never bought"는 0, "unknown"은 -1).
- missingness indicator 곁들인 median 또는 mode imputation.
- 강한 feature 상관관계가 있는 tabular엔 iterative 또는 KNN imputation.
- tree model(lightgbm, xgboost)의 native missing handling — missing 위에서 split 하게 둬.
증거로서의 outlier
outlier가 때론 data-entry 버그, 때론 dataset에서 제일 중요한 row. column마다 clip / log-transform / 그대로 모델 / 별도 모델로 split할지 결정해. outlier를 무턱대고 지우면 가장 중요한 고객들을 버리는 거야.