label 말고 확률 먼저
Classifier가 거의 항상 score 생성, label은 downstream 결정(score가 threshold 위). score(확률)을 모델의 진짜 출력으로 다뤄. threshold 선택은 training script가 아니라 design doc에 박혀.
baseline으로서 logistic regression
Logistic regression이 linear classifier baseline. 빠르고, 많은 문제에서 default로 calibrated, 계수가 log-odds로 해석 가능. tabular 데이터에서 best는 거의 아니지만 floor 설정하고 leakage 일찍 잡는 데 도움.
multi-class, multi-label, ordinal
multi-class가 K개 중 하나. multi-label이 K개의 임의 부분집합(label 별 sigmoid). ordinal classification이 label 순서("bad < ok < great") 존중하고 custom loss 이득. 모델 전에 framing 결정.