왜 boosting이 tabular에서 이기나
Gradient boosting이 tree를 sequential하게 빌드, 각 tree가 이전 ensemble의 residual error에 fit. 결과는 production에 충분히 interpretable 유지하면서 복잡한 interaction 잡는 strong learner. LightGBM, XGBoost, CatBoost가 Kaggle tabular leaderboard와 enterprise scoring system 대부분 지배.
중요한 세 손잡이
- learning_rate — 작게(0.01-0.05) + 많은 tree + early stopping이 안전한 플레이.
- num_leaves / max_depth — tree 별 용량. lightgbm 31 leaf 또는 xgboost depth 6에서 시작.
- min_data_in_leaf / min_child_samples — regularizer. 작거나 noisy 데이터엔 올려.
정직한 workflow
항상 early stopping 동반한 validation set 사용. learning rate를 n_estimator와 함께 튜닝(낮은 lr → 더 많은 tree). CV score와 train/val gap 추적. gap 폭발하면 더 regularize. booster를 JSON이나 native format으로 save해서 나중에 inspect.