Eval skip 은 단기 saving, 장기 tax
팀들이 eval skip 하는 건 eval 이 비싸 보여서야. annotation 느려. judge call 돈 들어. dataset 만드는 건 'real' 작업 전 overhead 같아 느껴. 실제 비용 방정식은 정반대야 — eval 없는 ship cycle 마다 compounding debt 가 쌓여.
Untested LLM system 의 비용
- Silent regression. 화요일 prompt 수정이 4% user segment 깨고, 목요일 support ticket 으로 알게 돼. customer-facing 피해는 이미 done.
- Model migration 정체. 새 model release 도착해도 어떤 동작이 깨질지 아무도 모르니까 upgrade 못 해. 안전한 move 는 '옛날 버전 영원히 유지' 뿐.
- Vendor lock-in. eval 없으면 quality 의 portable 증거 없어. provider 전환은 swap 이 아니라 rebuild 야.
- Stakeholder 불신. '이 변경이 도움이 됐어?' 물으면 'user 들 happy 해 보여' 답하고 영향력 줄어드는 걸 봐.
- On-call burnout. 재현, debug, 예방 못 하는 production incident. vibe 로 ship 하는 팀은 engineer 가 떠나.
- 느린 개선. eval 없으면 어떤 prompt 변경이 작동했는지 알 수 없어 — iteration 은 guess-and-revert 가 돼.
원칙: Eval 은 보험이 아니야. '변경했어' 를 '변경이 뭘 했는지 알아' 로 바꾸는 유일한 mechanism 이야. 없으면 시스템이 아니야 — 안개야.
비용 flip
일단 eval 이 존재하면 위 list 의 모든 비용이 flip 해. regression 은 PR time 에 잡혀. model upgrade 가 routine 이 돼. vendor 전환이 benchmark 가 돼. stakeholder 가 숫자를 봐. on-call 이 진정돼. iteration 이 가속돼. eval suite — overhead 처럼 보였던 그것 — 가 팀이 빨리 움직이게 하는 그것이야.