LLM 이 실제 계산하는 것
언어 모델이 토큰 만들 때마다 "뭐 말할지 결정" 안 함. 이거:
- 전체 vocabulary (50K+ 토큰) 에 대한 확률 분포 계산.
- 선택적으로 temperature, top-k, top-p 조정 적용.
- 결과 분포에서 토큰 하나 sample.
- sampled 토큰을 컨텍스트에 추가. 반복.
끝. 추론 루프 전체. 모던 LLM 의 모든 fancy 한 거 (chain-of-thought, agentic 행동, 도구 사용) = 광대한 학습된 분포 위에서 이 루프 돌아가며 emerging.
Sampling 조절
- temperature : softmax 전 logit 나누기. → argmax (결정론). → 모델 자연 분포. → 평평, 더 random. → sharp, 더 자신.
- top-k: top k 최고-확률 토큰만 유지, 나머지 0, 재정규화.
- top-p (nucleus): 누적 확률 ≥ p 인 가장 작은 토큰 집합 유지, 나머지 0, 재정규화.
왜 다른 temperature 에 다른 나
같은 모델, 같은 프롬프트 — 근데 의 나는 지루하고 예측 가능, 의 나는 대화적, 의 나는 delight 한 말 하거나 완전 길 잃을 수. 모델 underlying 분포 안 변함; 변하는 건 sampler 가 tail 에서 얼마나 공격적으로 픽.
모든 LLM 토큰 = sample. 톤, 창의성, "성격" = 모델 자체만큼 sampling 파라미터의 속성.
트랙 보상
세상은 확률; AI 가 그 사실 위에 지어짐. 너 sample, 언어 모델 sample, 결정 sample. Bayes 가 새 sample 들어올 때 믿음 갱신 법. 여기서부터 "softmax" "sampling" "temperature" 보면 underlying 확률 머신 보임.