Model을 4–10배 줄이는 세 가지 방법
tf.lite.TFLiteConverter에 세 factory method: from_saved_model (권장), from_keras_model, from_concrete_functions. SavedModel 경로가 가장 완전하고 최적화된 변환.
3단계 quantization tier, 갈수록 더 작고 빨라:
- 없음 (float32 baseline) — 직접 변환, 크기 감소 없음. 원본과 같은 정확도.
- Dynamic range (
optimizations=[tf.lite.Optimize.DEFAULT]) — weight를 정적으로 int8, activation은 runtime에 quantize. ~4× 작아짐, CPU 2–3× 빠름. Calibration 데이터 불필요. 가장 쉬운 첫 단계. - Full integer (int8) — weight랑 activation 둘 다 int8. Activation 범위 calibration 위한 representative dataset (100–200 샘플) 필요. ~4× 작아짐, 3×+ 빠름. Edge TPU와 microcontroller에 필수.