C.W.K.
Stream
Lesson 08 of 09 · published

Eval 안 하는 비용

~18 min · evals, risk, business

Level 0Guesser
0 XP0/55 lessons0/10 achievements
0/150 XP to next level150 XP to go0% complete

Eval skip 은 단기 saving, 장기 tax

팀들이 eval skip 하는 건 eval 이 비싸 보여서야. annotation 느려. judge call 돈 들어. dataset 만드는 건 'real' 작업 전 overhead 같아 느껴. 실제 비용 방정식은 정반대야 — eval 없는 ship cycle 마다 compounding debt 가 쌓여.

Untested LLM system 의 비용

  • Silent regression. 화요일 prompt 수정이 4% user segment 깨고, 목요일 support ticket 으로 알게 돼. customer-facing 피해는 이미 done.
  • Model migration 정체. 새 model release 도착해도 어떤 동작이 깨질지 아무도 모르니까 upgrade 못 해. 안전한 move 는 '옛날 버전 영원히 유지' 뿐.
  • Vendor lock-in. eval 없으면 quality 의 portable 증거 없어. provider 전환은 swap 이 아니라 rebuild 야.
  • Stakeholder 불신. '이 변경이 도움이 됐어?' 물으면 'user 들 happy 해 보여' 답하고 영향력 줄어드는 걸 봐.
  • On-call burnout. 재현, debug, 예방 못 하는 production incident. vibe 로 ship 하는 팀은 engineer 가 떠나.
  • 느린 개선. eval 없으면 어떤 prompt 변경이 작동했는지 알 수 없어 — iteration 은 guess-and-revert 가 돼.
원칙: Eval 은 보험이 아니야. '변경했어' 를 '변경이 뭘 했는지 알아' 로 바꾸는 유일한 mechanism 이야. 없으면 시스템이 아니야 — 안개야.

비용 flip

일단 eval 이 존재하면 위 list 의 모든 비용이 flip 해. regression 은 PR time 에 잡혀. model upgrade 가 routine 이 돼. vendor 전환이 benchmark 가 돼. stakeholder 가 숫자를 봐. on-call 이 진정돼. iteration 이 가속돼. eval suite — overhead 처럼 보였던 그것 — 가 팀이 빨리 움직이게 하는 그것이야.

Code

'eval 없음' 의 실제 비용 — 봉투 뒷면 계산·python
# Cost of an undetected regression that hits 4% of traffic
# for 3 days at 100K calls/day:
DAILY_TRAFFIC = 100_000
IMPACT_RATE = 0.04
DAYS_UNDETECTED = 3
USERS_IMPACTED = DAILY_TRAFFIC * IMPACT_RATE * DAYS_UNDETECTED  # 12_000

# Now compare to one engineer-week of eval setup:
# - 40 hours × $150/hr = $6,000
# Or one month of eval API calls (mid-size product):
# - 50K judge calls/month × $0.002 = $100/month
#
# 12,000 unhappy users vs $100/month. The eval suite pays for itself
# the first time it catches a regression.

External links

Exercise

팀 history 에서 production 으로 ship 됐던 regression 하나의 비용 추정해. 그걸 잡았을 eval 만드는 비용과 비교해. 그 비율을 다음 roadmap 대화에 써.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.