calibration이 뭘 의미하나
Classifier가 확률 p로 score 매긴 example 사이 empirical positive rate도 p일 때 calibrated. Logistic regression이 구성상 대략 calibrated. Boosted tree와 random forest는 보통 극단에서 overconfident, calibration 필요. downstream system이 확률 사용할 때(cost-weighted threshold, cascade, expected value) calibration 중요.
diagnostic: reliability curve
Prediction을 decile로 bin, bin 별 empirical positive rate 계산, predicted 확률에 대해 plot. 선이 y = x에 가까울수록 calibration 좋음. Brier score가 단일 숫자 요약 — 낮을수록 좋음.
실용 fix 두 가지
- Platt scaling — raw score 위 logistic regression fit. sigmoid 모양 miscalibration에 잘 동작.
- Isotonic regression — non-parametric monotone curve fit. 데이터 더 필요하지만 더 유연.
둘 다 sklearn의 CalibratedClassifierCV가 wrap.