C.W.K.
Stream
Lesson 04 of 10 · published

Supervised, Unsupervised, 그리고 그 너머

~26 min · supervised, unsupervised, self-supervised

Level 0Scout
0 XP0/48 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

feedback이 어디서 오나

고전적 분류는 supervised vs unsupervised. supervised는 feature/label 쌍을 먹고 loss가 label fit을 측정. unsupervised는 label 없이 구조(cluster, component, neighborhood)를 찾아. 새로운 갈래들은 feedback의 출처를 바꾸지만 엔지니어링 질문은 그대로야 — 무슨 신호가 "개선됐다"고 시스템에 알려주냐?

새로 등장한 친척들

  • Semi-supervised — 작은 labeled set + 큰 unlabeled set 혼합.
  • Self-supervised — input의 일부에서 자기가 label 생성 (next-token, masked patch).
  • Reinforcement — 환경의 reward에서 feedback, 종종 지연.
  • Active learning — 다음에 어떤 예제를 label 할지 모델이 골라서 정보량 최대화.

unsupervised의 정직한 질문

"unsupervised"라고 말하면서 매 run 후 사람이 cluster를 review 하면, 그 사람도 시스템의 일부야. cluster가 쓸모 있는지는 silhouette score만이 아니라 downstream task가 좋아지는지로 판단해.

Code

feedback 신호가 어디 사는지 audit·python
feedback_source = {
    "supervised": "explicit human labels in the dataset",
    "semi_supervised": "small labeled set + structure of unlabeled set",
    "self_supervised": "held-out part of the input itself",
    "unsupervised": "distance / density / structure assumptions",
    "reinforcement": "reward signal from environment",
    "active": "queries to a human oracle, ranked by uncertainty",
}
sklearn으로 짠 간단한 semi-supervised 셋업·python
from sklearn.semi_supervised import SelfTrainingClassifier
from sklearn.linear_model import LogisticRegression

base = LogisticRegression(max_iter=500)
ssl = SelfTrainingClassifier(base, threshold=0.85)
ssl.fit(X_partial, y_partial)  # y has -1 for unlabeled rows

External links

Exercise

지금 "unsupervised"로 다루고 있는 데이터셋 하나 골라. 조용한 labeler가 누군지, 그 판단이 얼마나 비싼지 적어봐. 그 labeler를 supervised pipeline으로 공식화할지 결정해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.