Reasoning output의 confidence calibrating

~14 min · reasoning, confidence, calibration

Level 0수련생

0 XP0/100 lessons0/14 achievements

0/120 XP to next level120 XP to go0% complete

모델은 default로 confident한 거짓말쟁이

Explicit calibration 없이 모델이 맞는 답과 틀린 답 모두에 대해 "I'm sure"라 report해. downstream에서 위험 — 인간이 AI confidence를 signal로 다뤄. Calibration은 reported confidence가 actual 정확도에 match하게 만드는 일이야.

3가지 calibration technique

Self-reported probability — "confidence (0–1)와 reasoning 명시." 유용한데 거칠어.
Verbalized uncertainty — "답이 evidence-grounded인지, inferred인지, unknown인지 명시." 종종 numeric보다 유용.
Sample-vote signal — N개 sample 돌려; 동의 안 하면 그게 uncertainty signal. self-report보다 reliable.

confidence를 router로 써

모델 confidence가 threshold 미만이면 route to: human review, 더 강한 모델, 추가 retrieval, 또는 refusal. UI display로의 confidence보다 routing signal로의 confidence가 더 유용.

Code

Confidence-routed pipeline·python

out = call_model(req)
if out.confidence < 0.7:
    out = call_stronger_model(req)
if out.confidence < 0.5:
    queue_for_human_review(req, out)
return out

External links

Anthropic — Reduce hallucinations (verbalize uncertainty)

Exercise

프롬프트에 verbalized uncertainty (grounded / inferred / unknown) 추가. 50개 input에 돌려. 정확도가 'grounded' > 'inferred' > 'unknown'인지 측정. 그 correlation이 너의 calibration evidence야.

Progress

Progress is local-only — sign in to sync across devices.

← PreviousReasoning theatre의 trap Next →나쁜 reasoning 디버깅 — trace 읽어

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.