production 에서 model 살아있게 하는 인프라
ship 후 그냥 거기 앉은 model 이 조용히 degrade. MLOps 가 ML model 을 다른 production system 처럼 다루는 practice: version, monitor, reality drift 시 retrain.
네 MLOps 기둥
- Experiment tracking — 모든 run 의 모든 hyperparameter, metric, artifact log. W&B, MLflow, Comet 이 인기 도구.
- Model versioning — model + training data + code + 환경 함께 저장. Git LFS, DVC, MLflow Model Registry, 또는 그냥 manifest file 의 blob storage.
- Production monitoring — latency, throughput, error rate, AND model 행동 (prediction distribution, input distribution) 추적. Drift 감지.
- Retraining trigger — monitoring signal 이 degradation 보이면 retrain 하는 자동 pipeline.
최소 viable setup
indie project 위 Kubernetes-managed Kubeflow 필요 없음. 필요:
- experiment tracker 하나 (W&B 또는 MLflow). 하나 고르고 일관 사용.
- manifest (date, dataset version, metric) 와 함께 저장된 model file.
- input 과 output capture 하는 production logging (sample — 매 request log X).
- production prediction distribution 을 training distribution 과 비교하는 weekly script. shift 에 alert.
그게 다. 큰 회사 MLOps stack 이 power 추가하지만 1-3 명 팀엔 overkill. 단순 시작, 필요 시 추가.