한 곳에 모든 거 — copy 하고 적응할 loop
이 lesson 이 트랙의 모든 pattern 을 하나의 runnable training loop 로 조립. 한 번 신중히 읽기; 경력 동안 이 variant 에서 cribbing 할 거야.
recipe 안:
- Device 선택 (CUDA → MPS → CPU fallback)
- weight decay split 의 AdamW (bias / norm 엔 decay 없음)
- warmup 의 cosine LR
- Mixed-precision (Ampere+ / Apple Silicon 에 bfloat16)
- Gradient clipping
- running loss 의 tqdm 진행 bar
- Per-epoch validation
- Best-checkpoint 저장
- NaN 보호
의도적으로 NOT 들어간 거 (각각 자체 트랙 / lesson 받음):
- Distributed training (DDP / FSDP) — Track 7
- torch.compile() — Track 7
- Experiment tracking (W&B / MLflow) — Track 8