확률 vs Likelihood: 알 가치 있는 구분

유의어 아닌 두 단어

일상 한국어로 "확률" "가능성" 같음. 통계에선 안 같고, 구분 중요.

	질문	변하는 것
확률 $P (D ∣ θ)$	파라미터 $θ$ 가 주어지면 데이터 $D$ 얼마나 likely?	데이터 변, 파라미터 고정
Likelihood $L (θ ∣ D)$	데이터 $D$ 가 주어지면 파라미터 $θ$ 얼마나 plausible?	데이터 고정, 파라미터 변

같은 공식, 다른 시각. 확률은 앞 봄 (모델 → 데이터); likelihood 는 뒤 봄 (데이터 → 모델).

왜 ML 신경 써

최대 Likelihood 추정 (MLE) = 모델 학습의 토대. 원리: 최선 파라미터 = 관측 데이터를 가장 plausible 하게 만드는 것. 수학: $\hat{θ} = ar g max_{θ} L (θ ∣ D)$ . 실전엔 negative log-likelihood 최소화 — 그게 cross-entropy 손실.

분류기 학습할 때마다 변장한 MLE 문제 푸는 중.

Softmax: Logits → 확률 분포

신경망 분류기 = raw 점수 = logits. 확률 (음수 X, 합 1) 으로 변환 = softmax:

$softmax (x_{i}) = \frac{e ^{x_{i}}}{\sum _{j} e ^{x_{j}}}$

지수화 전 $max (x)$ 빼서 수치 안정성 — 지금 표준.

확률은 모델 고정 데이터 변. Likelihood 는 데이터 고정 모델 변. 학습 = 데이터를 가장 plausible 하게 하는 모델 찾으려 파라미터 공간 탐색.

Code

Softmax — logits → 확률·python

import numpy as np

def softmax(logits):
    shifted = logits - logits.max()        # 안정성
    exp = np.exp(shifted)
    return exp / exp.sum()

logits = np.array([2.0, 1.0, 0.5, -1.0])
probs = softmax(logits)
print(probs)                                # [0.620, 0.228, 0.139, 0.013]
print(probs.sum())                          # 1.0 — proper 분포

확률 vs Likelihood: 알 가치 있는 구분

유의어 아닌 두 단어

왜 ML 신경 써

Softmax: Logits → 확률 분포

Code

External links

Exercise

Progress

댓글 0