Eval set은 user 아니야
Golden-set eval은 proxy. 실제 prompt quality judge는 진짜 traffic의 진짜 user. Production A/B testing이 eval suggest한 거 confirm하는 법.
A/B wiring
- Cohort assign에 user_id (또는 request_id) hash로 deterministically.
- Cohort별 outcome track: success rate, downstream conversion, complaint rate, cost.
- Statistical significance까지 충분히 길게 — 보통 low-volume system에 1–2주.
- Metric과 decision rule pre-register ("v_new가 success rate에서 v_old ≥ 이고 p < 0.05면 ship").
Pitfall
- Non-uniform feature로 hashing해서 cohort imbalance.
- Novelty effect (새 prompt 처음 3일 더 좋아 보이고, mean-revert).
- 같은 user가 session 사이로 양 cohort에 land하는 spillover.
- 지연되는 outcome metric — full window 기다려.