직접 짤 필요 없는 model 서버
TensorFlow Serving은 한 가지 일을 위해 만든 production-grade model 서버: SavedModel을 낮은 지연시간 + 높은 처리량으로 제공. 학습된 model과 예측 필요한 앱 사이 다리 — web API, mobile 백엔드, 데이터 파이프라인, 실시간 시스템.
Flask 앱에 Keras model 로드해서 model.predict() 부를 수도 있어. 프로토타입엔 작동. 하지만 TF Serving은 production에서 부딪히는 문제 해결:
- Model 버전 관리 — 재시작 없이 새 버전 배포, live hot-swap
- Request batching — 동시 요청 자동 그룹화로 GPU 효율 사용
- Multi-model — 한 서버에서 config 파일로 수십 model 제공
- gRPC + REST — 둘 다 native, 단순함은 REST, 성능은 gRPC
- C++ runtime — Python overhead 없이 TF 직접 사용