Infra 관리 없는 managed ML
Vertex AI는 Google Cloud의 managed ML 플랫폼. 자기 Kubernetes 클러스터랑 GPU 인스턴스 운영 대신 원하는 거 설명하면 Vertex가 infra 처리 — training job, serving endpoint, autoscaling, logging, 버전 관리.
쓰게 될 세 주요 capability:
- Custom training job — managed GPU/TPU 머신에서 training 스크립트 실행, experiment 추적
- Model registry — SavedModel 업로드, 버전 관리, lineage 연결
- Online endpoint — 등록된 model을 한 호출로 autoscaling REST endpoint 뒤에 배포
Serving 컨테이너는 prebuilt: us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-{version}. Training TF 버전이랑 정확히 일치시켜 — training과 serving 버전 불일치가 "incompatible SavedModel" 에러의 흔한 원인.