사전학습 objective가 모델한테 "학습"이 뭘 의미하는지 결정해. objective 하나 골라서 수조 토큰 굴리면 — 나오는 모델이 생태계 전체를 빚어.
Next-Token Prediction (Causal LM)
prefix 주고 다음 토큰 예측. loss는 모든 위치에서 동시에 cross-entropy, causal mask로 미래 토큰 누설 방지. GPT, Llama, Mistral, Claude, Gemini 사용 — 모든 모던 decoder-only LLM. objective가 생성으로 자연스럽게 스케일 — t에서 t+1을 예측하도록 학습된 모델이 샘플링/append로 임의 연속 생산.
Masked Language Model (MLM)
~15% 토큰 랜덤하게 가리고, 양방향 컨텍스트에서 그걸 예측하도록 학습. BERT, RoBERTa, DeBERTa 사용. 분류/검색용 풍부한 텍스트 표현 만드는 데 훌륭하지만, 큰 아키텍처 변경 없이는 autoregressive 생성 불가능.
왜 next-token이 이겼나
이유 셋. (1) objective와 배포 task가 같음 — 생성, train/inference 불일치 없음. (2) 양방향 MLM은 생성용으로 별도 "decoder" 붙여야 함; causal LM은 decoder가 내장. (3) causal LM은 multi-modal(이미지, 오디오) 시퀀스로 직선적으로 스케일, MLM은 텍스트형 mask-and-fill 의미론에 묶임. 2022년 즈음 사실상 모든 프론티어 모양 모델이 decoder-only causal LM.