순수 FP32 학습은 모던 하드웨어에 낭비. Mixed precision은 연산 대부분에 낮은 정밀도 부동소수점 사용하면서 수치 안정성을 위한 몇몇 핵심 연산만 FP32(또는 그 이상)에 유지. 결과: FP32 대비 약 2배 메모리 절감, 2배 throughput, 측정 가능한 품질 손실 없음.
| 포맷 | 비트 | 범위 | 용도 |
|---|---|---|---|
| FP32 | 32 | ±3.4 × 10³⁸ | master 가중치, loss scaling, optimizer state |
| FP16 | 16 | ±65,504 | 구형 GPU에서 forward/backward pass |
| BF16 | 16 | ±3.4 × 10³⁸ (FP32와 동일) | 모던 학습 (Llama 3.3, DeepSeek-V3 등) |
| FP8 (E4M3, E5M2) | 8 | 제한적 | Flash Attention 3, FP8 학습 실험, 추론 |
BF16(Brain Floating Point)이 학습의 모던 기본. FP32와 같은 exponent 범위 — overflow 문제 없음 — 지만 mantissa는 8비트뿐, gradient/activation엔 충분한 정밀도. FP16은 mantissa 정밀도가 더 높지만 범위가 훨씬 작아 — loss scaling 없이는 overflow 잘 남. BF16이 loss-scaling 춤을 구식으로 만들었어.