한 judge call, 여러 score
대부분 실제 output 은 단일 차원에서 pass/fail 이 아니야 — correct AND complete AND on-tone AND safe 여야. 별개 judge call 4개 돌릴 수 있지만 잘 design 된 multi-criteria prompt 가 한 번에 — 각 axis 의 structured score 반환 — 해.
Multi-criteria judge 의 anatomy
- prompt 상단에 criteria 를 정의와 함께 명시적으로 list.
- Calibration 중요하면 criterion 별 example 제공.
- Structured output 요구 — 각 criterion 이 named field 인 JSON.
- Score 전 axis 별 reason 강제 (rationale before verdict).
왜 한 call 이 N call 이겨
- Cheaper — round-trip 하나, input 비용 하나.
- Consistent context — judge 가 모든 criteria 한 번에 봐, 분산 줄어.
- Log 쉬움 — case 당 하나의 structured object.
왜 N call 이 가끔 이겨
- 매우 미묘한 criteria 에 judge 가 axis 들에 attention 잘 분배 못 할 수 있음 — 한 call 이 dilute, 4 call 이 focused.
- 다른 criteria 가 다른 judge model 필요할 수 있음 (correctness 에 강한 model, format 에 빠른 cheap 한 거).
- Per-axis prompt 가 product 간 재사용 가능.
원칙: 한 multi-criteria call 을 default. Calibration evidence 가 combined call 이 놓치는 거 보일 때만 per-axis call 로 split.