인간 (그리고 judge)이 score보다 비교 잘해
"이 output 좋아?" 묻기는 noisy 1-to-5 score 만들고; "A나 B 더 좋아?" 묻기는 tight, reliable comparison. 주관적 task (writing quality, helpfulness, tone)에 pairwise 이김.
Pairwise eval shape
- 같은 N개 input에 prompt v_old와 v_new 돌려.
- 각 input에 대해 judge (human이나 LLM)한테 두 output side-by-side 제시.
- Judge가 A, B, tie pick.
- Aggregate: v_new가 X% 시간 win. X가 50% 의미 있게 위면 significant.
Pitfall
- Position bias — judge가 first option 선호. Order randomize.
- Length bias — judge가 더 긴 output 선호. Length-control instruction 추가.
- Verbosity bias — wordier output이 더 thoughtful 들려. Criteria 명시.
- Self-preference — LLM judge가 같은 model family output 선호 경향.