C.W.K.
Stream
Lesson 03 of 05 · published

확률 vs Likelihood: 알 가치 있는 구분

~8 min · probability, likelihood, MLE

Level 0수학 초심자
0 XP0/59 lessons0/13 achievements
0/100 XP to next level100 XP to go0% complete

유의어 아닌 두 단어

일상 한국어로 "확률" "가능성" 같음. 통계에선 안 같고, 구분 중요.

질문변하는 것
확률 파라미터 가 주어지면 데이터 얼마나 likely?데이터 변, 파라미터 고정
Likelihood 데이터 가 주어지면 파라미터 얼마나 plausible?데이터 고정, 파라미터 변

같은 공식, 다른 시각. 확률은 앞 봄 (모델 → 데이터); likelihood 는 뒤 봄 (데이터 → 모델).

왜 ML 신경 써

최대 Likelihood 추정 (MLE) = 모델 학습의 토대. 원리: 최선 파라미터 = 관측 데이터를 가장 plausible 하게 만드는 것. 수학: . 실전엔 negative log-likelihood 최소화 — 그게 cross-entropy 손실.

분류기 학습할 때마다 변장한 MLE 문제 푸는 중.

Softmax: Logits → 확률 분포

신경망 분류기 = raw 점수 = logits. 확률 (음수 X, 합 1) 으로 변환 = softmax:

지수화 전 빼서 수치 안정성 — 지금 표준.

확률은 모델 고정 데이터 변. Likelihood 는 데이터 고정 모델 변. 학습 = 데이터를 가장 plausible 하게 하는 모델 찾으려 파라미터 공간 탐색.

Code

Softmax — logits → 확률·python
import numpy as np

def softmax(logits):
    shifted = logits - logits.max()        # 안정성
    exp = np.exp(shifted)
    return exp / exp.sum()

logits = np.array([2.0, 1.0, 0.5, -1.0])
probs = softmax(logits)
print(probs)                                # [0.620, 0.228, 0.139, 0.013]
print(probs.sum())                          # 1.0 — proper 분포

External links

Exercise

logits [3.0, 1.0, 0.0]. Softmax 적용. 모든 logit 에 1000 더하고 다시 softmax. 왜 결과 같아? 절대 logit 값에 대해 뭐 알려줘?
Hint
Softmax 가 상수 shift 에 invariant: softmax(x + c) = softmax(x), 상수가 cancel. Logit 의 *차이* 만 중요, 절대값 X.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.