"P(증거 | 가설) 은 알아. *원하는 건* P(가설 | 증거). 베이즈 정리가 입장권 값이야."
모든 것 밑에 깔린 한 동작
직전 네 lesson 이 이걸 향해 쌓아온 거였어. 베이즈 정리는 한 줄이야:
P(H | E) = P(E | H) × P(H) / P(E)
그건 *조건부의 뒤집기*야. 과학 대부분은 *forward 방향*을 줘 — 가설이 주어졌을 때 증거가 어떻게 보이는지? 의사결정 대부분은 *backward 방향*이 필요해 — 방금 본 증거가 주어졌을 때 가설이 뭐인지? Forward 화살은 *원인 → 결과*. Backward 화살은 *결과 → 원인*. 베이즈 정리는 *화살을 부수지 않고 돌려놓는 법*이야.
네 조각, 이름 붙이기
- Prior (사전확률) P(H) — 증거 보기 *전에* 가설에 대해 믿었던 것. *가장 저평가된* 조각. 누구나 *늘* prior 를 가지고 있어, 안 가진 척해도.
- Likelihood (가능도) P(E | H) — *만약 가설이 참이라면* 이 증거에 얼마나 놀랄지. 과학자가 보통 *계산하는* 부분.
- Evidence (증거) P(E) — 가능한 모든 가설을 가로질러 *증거가 전반적으로 나타나는 빈도*. 정규화 상수.
- Posterior (사후확률) P(H | E) — 증거에 *업데이트한 뒤* 가설에 대한 믿음. *실제로 원했던* 답.
한 문장 요약: posterior 는 *가설이 증거를 얼마나 잘 설명하는지* 로 prior 를 다시 가중치한 것*.
의료 검사 재앙
전체 인구 중 1,000명에 1명이 걸리는 병이 있다고 해 — prior P(병) = 0.001. 이 병 검사가 99% true-positive 율 (P(양성 | 병) = 0.99) 와 5% false-positive 율 (P(양성 | 건강) = 0.05) 을 가져. 양성으로 나왔다고 해보자. P(병 | 양성) 은?
시민 추측: 99%. 거의 모두 그렇게 답해, *예고 없이 물으면* 의료 전문가의 걱정스러운 비율까지 포함.
베이즈의 답: 약 2%. 99% 검사 정확도는 *likelihood* 지 *posterior* 가 아니야. 병 자체가 *희귀해서*, 민감한 검사라도 *전체 인구에서 true positive 보다 false positive 가 훨씬 많이* 나와. Posterior 는 prior 에 의존하는데, *직관은 그걸 인정하기를 거부해*.
이건 교과서 호기심이 아니야. 정전형 이유야 — 사람들이 일상 검진 결과에 패닉하고, 변호사가 DNA 증거를 잘못 표현하고, 정책 입안자가 자원을 잘못 배분하는. 전체 버전은 트랙 08 (베이즈 frame) 에서 전체 숫자로 분해하고 트랙 06 에서 법정 버전으로 다룰 거야. 지금은: *prior 는 떠받치는 기둥이고, 시민들은 습관적으로 빠뜨려*.