모델은 매 스텝마다 logit 생산. 디코딩이 그 logit을 선택된 다음 토큰으로 변환. 다섯 가지 흔한 전략, 각각 bias/variance trade-off 다름.
Greedy
항상 최고 확률 토큰 선택. 결정적, 빠름, 반복적. 분류나 답이 명확한 곳엔 좋고, 창의적 텍스트엔 나빠.
Beam search
매 스텝마다 k개의 부분 시퀀스("beam") 유지. 매 스텝에서 각 beam을 모든 가능한 다음 토큰으로 확장, 각 후보 점수 매김, top k 유지. 번역과 구조화된 출력에 greedy보다 좋지만 비쌈(k× 연산), open-ended task에선 너무 평이한 텍스트 생산 경향.
Top-k 샘플링
후보 집합을 k개 최고 확률 토큰으로 제한, 재정규화, 샘플. tail noise 필터링하면서 무작위성 추가. k=40이 흔해.
Top-p (nucleus) 샘플링
누적 확률이 p를 초과하는 가장 작은 토큰 집합으로 제한. 동적으로 적응 — 토큰 하나가 지배적이면 집합 작고, 불확실성 높으면 더 많은 토큰 진입. p=0.9가 전형적 기본.
Temperature
softmax 전에 logit을 1/T로 스케일. T=0이 greedy. T<1은 샤프닝, T>1은 평탄화. T=0.7이 chat의 흔한 기본. (다음 lesson에서 temperature 자세히.)