Mixed precision — BF16, FP16, FP8

순수 FP32 학습은 모던 하드웨어에 낭비. Mixed precision은 연산 대부분에 낮은 정밀도 부동소수점 사용하면서 수치 안정성을 위한 몇몇 핵심 연산만 FP32(또는 그 이상)에 유지. 결과: FP32 대비 약 2배 메모리 절감, 2배 throughput, 측정 가능한 품질 손실 없음.

포맷	비트	범위	용도
FP32	32	±3.4 × 10³⁸	master 가중치, loss scaling, optimizer state
FP16	16	±65,504	구형 GPU에서 forward/backward pass
BF16	16	±3.4 × 10³⁸ (FP32와 동일)	모던 학습 (Llama 3.3, DeepSeek-V3 등)
FP8 (E4M3, E5M2)	8	제한적	Flash Attention 3, FP8 학습 실험, 추론

BF16(Brain Floating Point)이 학습의 모던 기본. FP32와 같은 exponent 범위 — overflow 문제 없음 — 지만 mantissa는 8비트뿐, gradient/activation엔 충분한 정밀도. FP16은 mantissa 정밀도가 더 높지만 범위가 훨씬 작아 — loss scaling 없이는 overflow 잘 남. BF16이 loss-scaling 춤을 구식으로 만들었어.

Code

BF16 mixed precision in PyTorch·python

import torch
from torch.cuda.amp import autocast

# On Ampere or later (A100, H100, etc):
with autocast(dtype=torch.bfloat16):
    logits = model(input_ids)
    loss = causal_lm_loss(logits, target_ids)

# Backward pass uses BF16 automatically
loss.backward()
optimizer.step()
optimizer.zero_grad()
# No GradScaler needed for BF16 — that was an FP16 trick.

Mixed precision — BF16, FP16, FP8

Code

External links

Exercise

Progress

댓글 0