Post-training quantization 정확도가 부족할 때
Post-training quantization은 편하지만 민감한 task에서 정확도 떨어뜨릴 수 있어. Quantization-Aware Training (QAT)은 training의 forward pass에서 int8 quantization 시뮬레이션 — model은 float32 유지하지만 int8 변환에 robust한 weight 학습. 마지막 TFLite 변환이 실제 int8 model 만들어.
Post-training quantization 대비 일반적 정확도 이득: 절대값 1–3%. 정확도 예산 끝에 있을 때 유의미.
Magnitude-based pruning은 작은 weight를 0으로 만들어 sparse model 생성. Quantization과 결합하면 정확도 손실 최소로 ~10× 크기 축소. TF Model Optimization Toolkit (tensorflow_model_optimization)이 training 중 점진적으로 sparsity 늘리는 Keras layer wrapper 제공.