"확률은 점치는 게 아니야. 불확실성 아래 *행동하는* 수학이야."
첫 번째 혼동
길 가다 아무한테나 확률 이 뭐냐 물어봐. 거의 다 비슷한 답이 나올 거야 — "뭔가 일어날 가능성". 틀린 말은 아니야. 근데 진짜 질문을 피해갔어 — 그 '가능성' 이 뭔데?
통계학은 그 질문에 두 가지 어른스러운 답을 가지고 있어. p-value, 법정, AI 위험에 관한 거의 모든 논쟁은 사실 *두 답 사이의 논쟁* 인데, 다들 그 불일치를 *이름 붙이지 않은 채* 싸우고 있어.
답 1: 빈도주의 (Frequentist) — 장기 관점
빈도주의자는 말해: 확률은 *실험을 여러 번 반복했을 때 그 사건의 장기 빈도*야. P(앞면) = 0.5 는 동전을 백만 번 던지면 약 오십만 번이 앞면이라는 뜻이야. 확률은 *실험의 속성*이야.
이게 보험회사, 카지노, 임상시험의 세계야. 실험을 반복할 수 있어. 셀 수 있어. 확률이 *경험적*이야.
문제: 흥미로운 질문 대부분이 *한 방*이야. P(이 피고가 살인을 저질렀다) 는? P(이 약이 이 환자에게 들을 것이다) 는? P(내 회사가 5년 뒤에도 살아있다) 는? 어느 것도 반복 불가야. 빈도주의 frame 이 삐걱대.
답 2: 주관주의 / 베이즈주의 — 믿음의 강도
베이즈주의자는 말해: 확률은 *얼마나 강하게 믿는지를 숫자로 표현한 것이고, 실제로 받아들일 수 있는 베팅에 맞춰 calibrated 된 것*이야. P(내일 비) = 0.3 은 (a) 비 오면 30달러 받기 와 (b) 무조건 9달러 받기 사이에서 거의 무차별이라는 뜻이야 — 0.3 × 30달러 = 9달러 니까. 확률은 *믿는 사람의 속성*이야, 그 사람이 가진 증거를 전제로.
이 frame 은 한 방 사건에 통해. 그리고 정직을 강요해 — 베이즈 확률은 *실제로 받아들일 행동* 에 calibrated 돼. 숨을 데가 없어.
둘 다 합법이야. 질문에 맞는 걸 골라.
왜 뒤에 오는 모든 게 이 위에 서?
다음 트랙들 — 분포, CLT, σ, 가설 검정, 법정, 블랙 스완, 회귀 — 모두 *어느 frame 에 서 있는지* 에 달려 있어. 빈도주의 도구 (p-value, 신뢰구간) 는 빈도주의 가정에서 나와; 그 가정을 잊으면 미묘하게 깨져. 베이즈 도구 (사후 업데이트, 검사의 오류 fix) 는 다른 frame 에서 나와; *사전확률 (prior)* 이 필요한데, 그건 *옹호* 해야 해.
학교 통계 첫 시간은 학생한테 이걸 절대 안 말해줘. 그러다가 6장 가설 검정에서 학생은 뭐가 안 맞는지 모르고 헤매. 두 frame 이 *조용히 섞여* 있었기 때문이야. 우리는 처음부터 *소리 내서 이름을 붙일 거야*.
Pippa! " P(rain tomorrow) = 0.3 means you would be roughly indifferent between (a) being given $30 if it rains, or (b) being given $10 unconditionally." 이 부분에서, $30를 $ $33.\dot{3}$으로 수정하는 것이 좋지 않을까?.