Judge 는 편향 있어. 측정해.
LLM judge 는 알려진 systematic 에러 있는 도구야. 2도 높게 reading 하는 thermometer 처럼 다뤄 — usable, but offset 보정할 때만.
중요한 4개 편향
- Position bias — pairwise 비교에서 judge 가 처음 보여진 (또는 가끔 마지막) output 선호. 방어: 두 ordering 돌려서 평균.
- Length bias — judge 가 더 긴 output 보상, 짧은 게 더 나아도. 방어: rubric 에 "Length should not influence the verdict" 포함; 같은 답의 truncated/expanded variant 에 spot-check.
- Self-preference — judge 가 자기 model family 모양의 output 선호. 방어: judge 로 다른 model family 사용, 또는 여러 judge 써서 agreement 봐.
- Verbosity / confidence bias — judge 가 hedged 또는 uncertain 보다 assertive 매끄러운 output 선호, uncertainty 가 적절해도. 방어: 적절한 hedging 에 대한 명시적 rubric 조항.
Judge calibration 방법
- 100 case sample.
- 인간이 rate.
- 같은 100 case 에 judge 돌려.
- Cohen's kappa 또는 simple agreement rate 계산.
- Disagreement 봐. Prompt update. 다시 돌려.
- Inter-human agreement 수준에 도달할 때까지 iterate.
원칙: Specific task 에 인간 대비 calibrate 안 된 judge 는 guess 야. Calibration 이 instrument 와 story 의 차이.
여러 judge → ensemble
High-stakes eval 에 다른 model family 의 2-3 judge 돌리고 aggregate. Judge 간 disagreement 가 useful signal: 그 case 들이 인간 review 필요. 단일 judge pipeline 보다 더 비싸지만 극적으로 더 reliable.