Judge call 빨리 쌓여
강한 judge model 의 500-case eval 은 실행당 $20-100. 모든 PR 에 돌리면 evaluation 에 월 $1000-5000 지불. 관리 가능, 하지만 optimize 할 만해.
비용 절감 6개 기법
- Hash 로 cache — 같은 input + 같은 prompt + 같은 judge model = 같은 답. 결과 cache. 변경 안 된 case 의 re-run 은 비용 0.
- Cheap judge 먼저, expensive judge 나중 — 초기 verdict 에 cheap model 사용; cheap 이 fail 또는 uncertain 일 때만 expensive judge 로 escalate.
- Sample, exhaust 하지 마 — production traffic online eval 에 call 의 1-5% judge, 모두 X.
- 가능할 때 batch — API 가 지원할 때 request 당 여러 case judge (Anthropic batch API, OpenAI batch endpoint).
- Structured-output mode 선호 — malformed JSON 의 retry loop 제거, failed call 비용 5-15% 절감.
- Trivial axis 에 model down — Format-compliance 와 length check 는 frontier model 필요 X. 그것들엔 Haiku / GPT-mini / 작은 open model.
원칙: Judge model 강도를 question 난이도에 match. 미묘한 quality 에 frontier model, plumbing check 에 작은 model. Regex-equivalent 질문에 Opus 낭비는 그냥 돈 쓰는 거.
Eval run 당 비용 추적
대부분 LLM framework 가 token usage 노출. Log. 'eval run 당 비용' metric 이 eval dashboard 에 나와야 해. Refactor 가 eval 비용 두 배로 만들면 누가 즉시 알아채야지, 다음 청구 report 때가 아니야.