pipeline이 유일한 길
scikit-learn Pipeline이 preprocessing과 estimator를 single fittable / predictable / serializable 객체로 wrap. 디시플린은 raw row → prediction의 유일한 길을 pipeline으로 만드는 거. notebook cell preprocessing 금지, hand-applied transformation 금지, "아 predict 시점에 scale 까먹었네" 금지.
왜 이게 너를 구하나
pipeline은 joblib으로 올바르게 serialize, production에 단일 artifact로 ship, predict 시점에 동일한 transformation 적용. CV가 fold마다 전체 pipeline 실행해서 preprocessing leakage 자동 방지. GridSearchCV가 preprocessing과 estimator를 동시에 튜닝 가능.
디시플린
pipeline을 training과 serving 사이의 계약으로 다뤄. pipeline.predict(raw_row)로 prediction 재현 못 하면, pipeline 미완성이고 ship 대기 중인 버그가 있는 거.