이름은 같지만 다른 일
Classical ML — logistic regression, gradient-boosted tree, SVM, random forest — 는 구조화된 tabular data, 적당한 dataset 크기, 잘 설계된 column 몇 개에 신호가 몰려 있는 문제에서 강력해. 빠르게 train 되고, 해석 쉽고, 노트북에서 돌아. XGBoost 와 LightGBM 이 Kaggle tabular 대회 대부분을 여전히 이긴다는 건 옛날 얘기 아니야.
Deep learning 은 신호가 raw, high-dimensional, redundant data — pixel, waveform, character stream — 에 묻혀 있고, 충분한 data 또는 좋은 pretrained backbone 이 있을 때 강해. 비용도 진짜야: GPU, careful initialization, normalization, regularization, 그리고 shape 디버깅에 몇 시간 쓸 각오.
Baseline reflex
Deep learning project 의 가장 흔한 실패는 baseline 을 건너뛰는 거야. 팀이 transformer 3 주 튜닝했는데, 사실 잘 튜닝된 LightGBM 이 20 분 만에 같은 정확도 찍는 tabular dataset 인 거지. 비용은 compute 만이 아니야 — 어떤 knob 이 중요한지에 대한 잘못된 멘탈 모델이 더 비싸. Baseline 은 deep learning 이 얼마나 여유 가 있는지 알려줘.
올바른 결정의 모양
Deep learning 은 다음 중 둘 이상이 참일 때 reach 해: input 이 raw 하고 high-dimensional, label 과의 관계가 non-linear/compositional, 충분한 data 또는 강한 pretrained model 이 있고, training/serving 비용 감당 가능. 그게 아니면 classical ML 이 어른의 선택이야.