Cheap, fast, biased
다른 LLM output grade에 LLM 쓰는 게 가장 cheap한 evaluation scaling 방법. Easily fooled되기도 해. Carefully 쓰면 work accelerate; carelessly 쓰면 진짜 quality predict 안 하는 comforting 숫자 produce.
LLM judge work하는 곳
- Format checking — JSON valid? response가 모든 required field 포함?
- 명확한 rubric으로 pairwise comparison.
- Categorical classification (refund vs complaint vs feature request).
- reference 기준 hallucination detection ("response가 source 모순?").
LLM judge 실패하는 곳
- 주관적 quality에 numerical scoring (1–5 helpfulness score noisy).
- judge가 test 받는 모델이랑 같은 blind spot 가진 곳.
- Adversarial situation — judge model도 prompt-injected 가능.
Judge calibrate
judge decision 20% spot-check를 사람으로. agreement rate 85% 미만이면 그 task에 judge usable X; rubric tighten하거나 더 많은 human eval.