FP32 weight 를 INT8 로 표현 — 모델 크기 4 배 ↓, latency 2-4 배 ↓. accuracy 손실은 보통 < 1% (잘 튜닝하면). edge / mobile / serverless 처럼 latency / cost-critical 환경에 핵심.
두 방식: (1) post-training quantization (PTQ) — 학습 후 weight 만 변환, 빠르고 쉬움. (2) quantization-aware training (QAT) — 학습 시 INT8 시뮬, accuracy 손실 ↓. PTQ 로 시작, accuracy 부족할 때만 QAT.