3 숫자, 1 결정
어떤 prompt 변경에 대해 3 axis로 이동: cost (토큰, $), quality (golden-set score), latency (p95 ms). 셋 다 한 번에 개선 rare; 보통 한 거 다른 거 trade. trade explicit하게.
유용한 비교
- v_new가 quality 4% 개선, p95 latency 800ms 증가 — batch job에 가치, chat에 X.
- v_new가 cost 40% 줄임, golden set 1% 잃음 — 보통 가치; 잃은 case가 high-stakes 아닌지 verify.
- v_new가 빨라 (작은 모델), 일상 input에 quality tie인데 hard에 degrade — hard input 큰 모델로 route.
Dashboard
Eval run이 prompt당 차트 하나 produce: cost vs quality, latency vs quality. Decision visible. Stakeholder가 왜 너가 고른 거 골랐는지 봐.