Kubernetes 안 필요할 거야
대부분 고전 ML use case는 load balancer 뒤 단일 FastAPI server면 충분. 모델은 몇 백 MB, latency는 몇 ms, 팀은 엔지니어 둘. Traffic, latency, 컴플라이언스가 요구할 때만 무거운 인프라 reach.
최소 surface area
- Raw row 받아 확률 + 결정 + version 반환하는 HTTP endpoint.
- Load balancer 위한 health endpoint.
- 모델 metadata 반환하는 version endpoint.
- 모든 prediction의 structured logging (input, output, version, latency).
- 모델 실패 시 rule-based fallback으로 가는 circuit breaker.
deployment 의식
Shadow-deploy 먼저: traffic 10%를 새 모델로 route, prediction log 하지만 결정은 old 모델 사용. 분포 비교. shadow 통과 후만 promote. 항상 이전 artifact를 rollback 위해 한 클릭 거리에 유지.