lift가 어디서 오나
Baseline 너머, feature engineering이 hyperparameter tuning 보다 시간당 더 많은 performance 사. trick은 prediction-time 제약 존중하는 feature를 engineer 하는 거. time window aggregate, ratio, lag, 도메인 특화 grouping이 raw field를 일관되게 능가.
패턴 카탈로그
- Time-window aggregate — prediction 시점 기준 last 7/30/90일의 count/sum/mean.
- Ratio — baseline 대비 값 ("이 user의 spend / 이 plan의 평균 spend").
- Recency / frequency — last action 이후 일수, 기간 당 action 수.
- Categorical interaction — 비즈니스 segment 표현 쌍 ("tier × region").
- Cross-entity rollup — user 자체 말고 user의 organization에 대한 feature.
모든 feature에 leakage 체크
각 engineered feature에 대해, 그 시점 가용한 데이터로 prediction 시점에 계산 가능하다는 한 문장 증명 작성. 증명 어려우면 leakage야.