importance의 세 flavor
- 내장 tree importance — 빠르지만 high-cardinality feature 쪽으로 biased.
- Permutation importance — 모델 무관, feature shuffle 후 score 하락 측정. 정직하지만 비쌈.
- SHAP value — prediction 별 contribution. 비싸지만 local 설명에 강력.
importance가 뭐고 뭐가 아닌가
Importance가 현재 데이터 분포 아래 predictive contribution 측정. causality 아님. intervention 아래 stability 아님. feature가 매우 중요해도 act 하기 잘못일 수 있어, action이 분포를 바꿀 거니까.
잘 communicate
top-10을 절댓값 score와 함께 보여줘, 모양(positive vs negative direction) 위해 SHAP summary plot 추가. 팀이 신뢰하는 sanity check column 항상 포함. 모델이 중요 안 하다고 하는데 팀이 중요하다고 알면, 데이터나 framing이 잘못됨.