두 프로토콜, 두 용도
TF Serving은 REST (8501)와 gRPC (8500) 둘 다 노출. REST가 가장 쉬움 — 표준 HTTP JSON 요청, 어디서든 통합. gRPC가 더 빠름 — 바이너리 Protocol Buffer 직렬화, 낮은 지연시간, 고용량 production 트래픽에 낮은 bandwidth.
REST URL 패턴: http://host:8501/v1/models/{MODEL_NAME}:predict. 특정 버전 타깃하려면 /versions/{N} 추가.
Python 클라이언트에선 REST는 두 줄 (requests.post). gRPC는 tensorflow-serving-api 패키지랑 Protocol Buffer 메시지 타입 필요.
언제 뭘 쓸지: REST는 개발, 디버깅, 저용량 production, 웹 프레임워크 통합. gRPC는 직렬화 overhead가 실제 지연시간 예산에 보이는 고처리량 production.