C.W.K.
Stream
Lesson 01 of 04 · published

Classification 기초

~26 min · classification, logistic-regression

Level 0Scout
0 XP0/48 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

label 말고 확률 먼저

Classifier가 거의 항상 score 생성, label은 downstream 결정(score가 threshold 위). score(확률)을 모델의 진짜 출력으로 다뤄. threshold 선택은 training script가 아니라 design doc에 박혀.

baseline으로서 logistic regression

Logistic regression이 linear classifier baseline. 빠르고, 많은 문제에서 default로 calibrated, 계수가 log-odds로 해석 가능. tabular 데이터에서 best는 거의 아니지만 floor 설정하고 leakage 일찍 잡는 데 도움.

multi-class, multi-label, ordinal

multi-class가 K개 중 하나. multi-label이 K개의 임의 부분집합(label 별 sigmoid). ordinal classification이 label 순서("bad < ok < great") 존중하고 custom loss 이득. 모델 전에 framing 결정.

Code

class weight와 balanced 출력 동반한 logistic regression·python
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ("scale", StandardScaler()),
    ("clf", LogisticRegression(max_iter=1000, class_weight="balanced")),
])
pipe.fit(X_train, y_train)
probs = pipe.predict_proba(X_val)[:, 1]
OneVsRestClassifier로 multi-label sigmoid head·python
from sklearn.multiclass import OneVsRestClassifier
from sklearn.linear_model import LogisticRegression

tags_model = OneVsRestClassifier(LogisticRegression(max_iter=1000)).fit(X_train, Y_train_multilabel)

External links

Exercise

classification 문제에 logistic regression baseline train. PR-AUC, recall at precision 0.7, operating threshold 보고. 모든 화려한 모델이 의미 있는 마진으로 이겨야 하는 bar로 이 baseline을 사용.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.