C.W.K.
Stream
Lesson 08 of 10 · published

ML의 숨은 비용

~28 min · mlops, lifecycle

Level 0Scout
0 XP0/48 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

training은 제일 쉬운 부분

첫 모델은 일주일. 그다음 1년이 팀 전체의 시간을 잡아먹어. ML 비용 대부분은 training 바깥에 있어 — labeling pipeline, feature pipeline, drift monitoring, retraining cadence, rollback 절차, on-call, alerting, 그리고 새 엔지니어가 원작자 페이징 없이 fix를 ship 할 수 있게 해주는 문서화.

lifecycle 청구서

  • Data — 수집, 정제, labeling, 지속적 quality check.
  • Features — pipeline 코드, freshness SLA, backfill 스토리.
  • Training — 컴퓨트, 실험, hyperparameter search.
  • Serving — latency, autoscaling, A/B 프레임워크, fallback path.
  • Monitoring — input drift, output drift, calibration, 비즈니스 KPI.
  • Governance — model card, audit, approval, deprecation plan.

정직한 plan

ML 약속하기 전에 라인 아이템마다 추정해. 팀이 monitoring을 staff 못 하면 모델은 조용히 degrade해. rollback path 없으면 첫 나쁜 날이 마지막 좋은 주가 돼.

Code

최소 lifecycle budget·python
lifecycle_budget = {
    "data_labeling_hrs_per_month": 40,
    "feature_pipeline_oncall": "shared rotation",
    "training_compute_usd_per_month": 250,
    "serving_latency_p99_ms": 150,
    "retraining_cadence": "weekly",
    "rollback_target_minutes": 10,
    "monitoring_dashboards": ["input_drift", "output_drift", "business_kpi"],
}
rollback 해치는 모델의 일부야·python
def serve(features, primary, fallback, allow_primary):
    if allow_primary():
        try:
            return primary.predict(features)
        except Exception as exc:
            log("primary failed, falling back", exc=exc)
    return fallback.predict(features)

External links

Exercise

팀이 고려 중인 ML 아이디어의 lifecycle budget을 스케치해. 월별 labeling 시간, retraining cadence, rollback 시간 목표, launch 전에 반드시 있어야 할 dashboard. 팀의 실제 capacity와 비교해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.