next-token prediction의 학습 loss는 모델의 예측된 다음 토큰 분포와 실제 다음 토큰(one-hot 벡터) 사이의 cross-entropy야.
L = − Σ_t log P(token_t | tokens_{<t})
각 위치에 대해 모델이 vocab 전체에 대한 logit 출력; softmax가 확률로 변환; cross-entropy는 모델이 정답 토큰에 할당한 음의 log 확률 보고. 위치 가로질러 합, batch 가로질러 평균 — 그게 loss.
Perplexity는 cross-entropy의 지수화 — perplexity = exp(loss). 손에 잡히는 해석 가능 — "모델이 각 위치에서 선택하는 유효 옵션 수." perplexity 100은 모델이 100개 동등 확률 옵션 중 하나 골라야 하는 만큼 불확실하다는 뜻. 모던 프론티어 LLM은 자연 영어 텍스트에서 perplexity 5-15 달성.