학습된 causal LM은 한 번에 토큰 하나씩 생산. 절차:
- prompt를 모델에 통과. 마지막 위치 logit 가져옴.
- 그 logit에서 토큰 샘플링(greedy, top-k, top-p, 또는 temperature 스케일).
- 새 토큰을 시퀀스에 append.
- EOS 토큰, stop sequence, 또는 최대 길이까지 1번부터 반복.
이 loop은 본질적으로 직렬. 토큰 5는 토큰 4가 선택되기 전엔 예측 불가. GPU 무한히 있어도 생성 중 시간 축 병렬화 불가능 — batch 축(독립 생성 여럿)이랑 depth 축(단일 forward pass 안)만 가능. 이 사실 하나가 KV-cache, speculative decoding, continuous batching을 다 굴리는 동력 — 모두 본질적 순차성의 영향을 누그러뜨리려는 시도.