Cost-quality-latency 삼각형

~14 min · evaluation, tradeoffs

Level 0수련생

0 XP0/100 lessons0/14 achievements

0/120 XP to next level120 XP to go0% complete

3 숫자, 1 결정

어떤 prompt 변경에 대해 3 axis로 이동: cost (토큰, $), quality (golden-set score), latency (p95 ms). 셋 다 한 번에 개선 rare; 보통 한 거 다른 거 trade. trade explicit하게.

유용한 비교

v_new가 quality 4% 개선, p95 latency 800ms 증가 — batch job에 가치, chat에 X.
v_new가 cost 40% 줄임, golden set 1% 잃음 — 보통 가치; 잃은 case가 high-stakes 아닌지 verify.
v_new가 빨라 (작은 모델), 일상 input에 quality tie인데 hard에 degrade — hard input 큰 모델로 route.

Dashboard

Eval run이 prompt당 차트 하나 produce: cost vs quality, latency vs quality. Decision visible. Stakeholder가 왜 너가 고른 거 골랐는지 봐.

Code

Eval result schema·json

{
  "prompt_version": "support@8",
  "model": "claude-haiku-4-5",
  "golden_set": "goldens/v3.jsonl",
  "pass_rate": 0.94,
  "cost_per_1k_calls_usd": 1.20,
  "p50_latency_ms": 450,
  "p95_latency_ms": 1850,
  "date": "2026-05-04"
}

External links

Anthropic — Cost vs latency tradeoffs

Exercise

Top 3 prompt에 일주일 cost, quality, latency log. 3 숫자 scatter plot. dominated point (다른 version보다 셋 다 worse) 식별.

Progress

Progress is local-only — sign in to sync across devices.

← PreviousPrompt regression test Next →Metric design — easy한 거 측정 X

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.