Prior, Likelihood, Posterior: 베이즈 어휘

"베이즈 정리는 *방정식 하나와 이름 붙은 양 세 개*. *이름 배워*; *나머지는 배관*."

방정식, 한 번 더

베이즈 정리:

P(H | E) = P(E | H) × P(H) / P(E)

*세 이름 붙은 양*:

Prior P(H) — *증거 보기 *전*에 가설에 대한 본인의 믿음*.
Likelihood P(E | H) — *가설이 참이면 증거가 얼마나 그럴듯한지*.
Posterior P(H | E) — *증거에 업데이트한 *후* 가설에 대한 본인의 믿음*.

*네 번째 양 P(E) ('증거' 또는 '주변 likelihood') 가 *정규화 상수* — *prior 에 의해 가중치된, 가능한 모든 가설에 걸쳐 증거가 얼마나 자주 나타나는지*. *Posterior 가 1 로 합하게 만듦*.

각 이름이 평이한 언어로 의미하는 것

*Prior 는 *시작 믿음*. *누구나 늘 하나 가짐*, *안 가진 척해도*. *Prior 이름 붙이기를 거부하는 frequentist 가 *암묵적인 것 (자주 평평한 또는 '비정보적' prior) 으로 작동*. *베이즈주의자가 *prior 를 가시화하고 옹호하도록 강제됨*.

*Likelihood 가 *과학이 주는 것*. *대부분 실험 작업이 likelihood 계산*: *가설 주어졌을 때 데이터 예측*. *이게 통계 수업이 *대부분 시간을 쓰는 부분* — *분포 fit, p-value 계산, 모델 구축*. *기술적으로 복잡한 부분*.

*Posterior 가 *결정이 필요한 것*. *의사결정자가 알고 싶음*: *본 것 주어졌을 때, 무엇을 믿어야 할까*? *Posterior 가 답*. *Likelihood 단독으로는 아님*.

왜 Prior 를 피할 수 없나

*Likelihood 만 계산하고 거기서 멈추면, *추론 안 끝난 것*. *사용자에게 *가설 하 증거의 조건부 확률을 줬지만, *그들이 원한 건 *증거 하 가설의 조건부 확률*. *Prior 없이는 *그 둘을 관련시킬 수 없음*. *Prior 제공 거부하면서 *여전히 두 번째 질문에 답한다고 주장하는 사람은 *조용히 암묵적 prior 사용* — *거의 항상 균등 또는 '비정보적' 인 것* — *이름 안 붙이고*.

*베이즈 추론의 규율이 *prior 에 이름 붙이는 규율*. *이름 붙는 순간, *논쟁, 비판, 정련, 교체 가능*. *암묵적으로 머무는 한, *검토 불가*. *베이즈가 *prior 를 명시적으로 만들어 정직 강제*.

운영 문장

*베이즈 정리가 *관측 (likelihood) 을 *진술된 믿음 (prior) 과 결합해서 *추론 (posterior) 으로 바꿈*. *Prior 없이는 *likelihood 가 *문장의 반*. *Prior 이름 붙고 likelihood 정직하면, *posterior 가 *시민의 가장 강력한 추론 도구**. *이 트랙 나머지 다섯 lesson 모두가 *이 어휘 사용*. *Prior 가 *베이즈를 정직하게 만드는 것*; *likelihood 가 *경험적으로 만드는 것*; *posterior 가 *실행 가능하게 만드는 것*.

Code

*세 조각이 모두 보이는 베이즈 정리*·python

# 베이즈 정리, *세 이름 붙은 조각이 모두 보이는 작은 함수*.
def bayes(prior, likelihood_given_H, likelihood_given_not_H):
    """P(H), P(E|H), P(E|not H) 에서 P(H | E) 계산."""
    numerator = likelihood_given_H * prior
    denominator = likelihood_given_H * prior + likelihood_given_not_H * (1 - prior)
    return numerator / denominator

# 예시 1: *희귀 병에 대한 의료 검사*.
prior_sick = 0.001       # 희귀
P_pos_if_sick = 0.99     # 높은 민감도
P_pos_if_healthy = 0.05  # 5% false-positive 율
posterior = bayes(prior_sick, P_pos_if_sick, P_pos_if_healthy)
print(f"예시 1: 희귀 병, 양성 검사")
print(f"  prior P(병)               = {prior_sick:.4f}")
print(f"  likelihood P(+|병)         = {P_pos_if_sick:.2f}")
print(f"  likelihood P(+|건강)       = {P_pos_if_healthy:.2f}")
print(f"  POSTERIOR P(병|+)          = {posterior:.4f}")

# 예시 2: *같은 검사, 고위험 환자 (prior = 0.10)*.
prior_sick_high = 0.10
posterior_high = bayes(prior_sick_high, P_pos_if_sick, P_pos_if_healthy)
print(f"\n예시 2: 같은 검사, 고위험 환자")
print(f"  prior P(병)               = {prior_sick_high:.4f}")
print(f"  POSTERIOR P(병|+)          = {posterior_high:.4f}")

# *같은 검사, 같은 likelihood, 다른 prior → 엄청나게 다른 posterior*.
# *이게 정확히 *prior 가 떠받치는 기둥인 이유, 그리고 *그걸 떨어뜨리면
# 법정에서 검사의 오류, 임상에서 의료 false-positive 패닉 생산하는 이유*.

Exercise

*현재 가지고 있는, *불확실한 것에 대한 믿음* 하나 고르기 (친구의 계획, 시장 방향, 프로젝트의 성공). *세 베이즈 조각 명시적으로 쓰기*: *(1) *어떤 증거 전에도 *prior P(믿음); *(2) likelihood — *그 믿음이 참이면 *어떤 증거를 보길 기대*, *아니면 무엇*; *(3) posterior — *실제로 관측한 증거 주어졌을 때, *업데이트된 믿음이 무엇*. *대부분 사람이 *1단계를 완전히 건너뜀*. *연습은 *의도적으로 하는 것*.

Hint

*합리적인 사람들 사이의 *대부분 불일치가 *likelihood 나 증거 아닌 *prior 에 대한 불일치*. *Prior 이름 붙이기가 *생산적 불일치의 첫 단계*.