Correctness 뒤에 사는 두 reliability axis
"Model 이 대부분 시간 correct" 가 두 distinct 문제 숨길 수 있음:
- Consistency — 질문 rephrase 할 때 같은 답 줘?
- Calibration — 표현된 confidence 가 실제 accuracy 와 match?
둘 다 중요. Inconsistent model 이 user trust erode ("같은 거 두 번 물었는데 다른 답 둘 받음"). Uncalibrated model 이 confident 하게 lie — "I'm 95% sure" 하면서 60% 만 right.
Consistency 측정
같은 질문의 N rephrasing 가져. 다 돌려. 답의 의미 similarity (BERTScore 또는 embedding cosine) score. 평균이 그 case 의 consistency score. Case 에 걸친 평균이 system 의 consistency metric.
Calibration 측정
Model 이 confidence 진술하게 ("I'm X% sure"). Stated confidence 로 prediction bin. 각 bin 에 대해 actual accuracy 계산. 잘 calibrated 된 model 은 각 bin 에 actual accuracy ≈ stated confidence. Deviation plot — 그게 calibration curve.
왜 frontier model 이 여전히 poorly calibrated
RLHF training 이 over-confidence 경향. Model 이 confident 답이 더 높은 인간 rating 받는 거 배워서 warranted 보다 더 confident 가 됨. 2025-2026 generation 이 약간 더 나아졌지만 여전히 "I'm sure" tail 에서 보통 over-confident.