tree가 어떻게 학습하나
Decision tree가 impurity criterion(classification은 Gini, regression은 MSE) 최소화하려고 feature 값으로 데이터 recursive하게 split. 각 leaf가 majority label이나 mean target 받음. tree가 missingness, mixed type, monotone과 non-monotone 관계, interaction을 native로 다룸 — 그래서 tabular 데이터에서 weight 위로 펀치.
강점과 약점
- Strength: 검사 쉬움. 한 tree를 화이트보드에 그려서 product review 가능.
- Strength: scaling X, encoding 고통 X, normality 가정 X.
- Weakness: high depth에서 단일 tree가 공격적으로 overfit.
- Weakness: 작은 데이터 perturbation이 wildly 다른 tree 생성.
사용법
shallow tree(depth 3-5)을 inspectable baseline과 stakeholder 설명 도구로. prediction 품질엔 거의 항상 random forest나 gradient boosting으로 졸업. ensembling이 bias-variance trade-off 해결.