Model이 실제로 도는 곳
TFLite Interpreter는 device에서 .tflite model 실행하는 runtime. Python (mobile 배포 전 데스크톱 테스트에 유용)에선 tf.lite.Interpreter 사용.
Delegate는 TFLite가 특화 하드웨어로 계산 offload하게 해줘. 각 delegate는 plugin — TFLite가 지원되는 op 먼저 delegate에 시도, 미지원 op는 CPU로 fallback.
| Delegate | 하드웨어 | 플랫폼 | 지원 quant |
|---|---|---|---|
| GPU Delegate | OpenCL/Metal GPU | Android, iOS, Linux | fp32, fp16, dynamic range |
| Core ML Delegate | Neural Engine (A12+) | iOS 12+ | fp32, fp16 |
| Edge TPU | Coral Edge TPU | Linux/Win/macOS | full int8만 |
| NNAPI | Neural Proc Unit | Android 8.1–14 | device마다 다름 |
Delegate 선택과 quantization 선택이 묶여있어. Coral Edge TPU 타깃? full int8 quantization 필수. iOS Neural Engine 타깃? fp16. 배포 타깃 고려 없이 quantization tier 고르면 작업 낭비.