ML이 잘 맞는 케이스, 잘 안 맞는 케이스

ML이 값을 하는 곳

패턴이 진짜인데 hand-coded rule엔 너무 복잡할 때, label이 풍부하고 신뢰 가능할 때, 실수가 회복 가능하거나 저-stake일 때, 데이터 분포가 retraining 보다 빠르게 안 변할 때 — ML이 강해. tabular ranking, fraud scoring, demand forecasting, recommendation, image triage가 고전적 승리 케이스야.

ML이 첫 선택으로 나쁜 곳

rule이 이미 잘 돌아가고 audit 가능. 바꾸면 lift 없이 risk만 추가.
실수가 catastrophic하고 되돌릴 수 없음. ML score를 유일한 안전망으로 쓰지 마.
label이 부족하거나 모호하거나 의견 분분. 모델은 그 disagreement를 인코딩할 뿐.
세상이 ship 속도보다 빠르게 변함.
규제 받는 결정이라 매 outcome에 사람이 이해할 수 있는 이유가 필요함.

5분 triage

ML 아이디어마다 네 차원을 1-5로 점수: 패턴 복잡도, label 가용성, 실수 회복 가능성, drift 속도. 두 개 이상이 3 미만이면 ML 말고 다른 대안이나 훨씬 작은 scope를 먼저 잡아야 해.

Code

5분짜리 ML fit 체크리스트·python

def ml_fit_score(idea):
    pattern = idea["pattern_complexity"]
    labels = idea["label_availability"]
    reversibility = idea["mistake_reversibility"]
    drift = 6 - idea["drift_speed"]  # invert: slower drift is better
    return (pattern + labels + reversibility + drift) / 4

fraud = {"pattern_complexity": 5, "label_availability": 4, "mistake_reversibility": 4, "drift_speed": 4}
print(ml_fit_score(fraud))  # ~3.75 → strong fit

가장 단순한 baseline부터 ship·python

from sklearn.dummy import DummyClassifier

baseline = DummyClassifier(strategy="prior").fit(X_tr, y_tr)
print("baseline accuracy:", baseline.score(X_te, y_te))

ML이 잘 맞는 케이스, 잘 안 맞는 케이스

ML이 값을 하는 곳

ML이 첫 선택으로 나쁜 곳

5분 triage

Code

External links

Exercise

Progress

댓글 0