Temperature는 softmax 전에 모델의 logit을 재스케일, 결과 분포가 얼마나 '샤프'하거나 '평탄'한지 제어.
P(token_i) = softmax(logit_i / T)
- T = 0: greedy와 동등. 최고 logit 토큰이 모든 확률 질량 가져감.
- T = 0.3 – 0.7: 집중하지만 결정적이지 않음. 코드, 수학, 사실 QA, 에이전트 task에 좋아.
- T = 1.0: raw 분포 사용. 일반 chat의 합리적 기본.
- T > 1.0: 더 랜덤하고 창의적. T=1.5 또는 2.0이 반복 패턴 벗어나는 데 가끔 도움; 매우 높은 temperature는 일관성 없는 텍스트 생산.
Temperature는 top-p와 상호작용. T=0이면 p가 뭐든 상관없어 — 항상 같은 토큰 이김. 높은 temperature에선 top-p가 미친 outlier 지배 막아. 둘이 함께 안정성과 창의성 사이 조정 가능한 균형 줘.