베이즈 언어의 검사의 오류

"트랙 06 이 *검사의 오류를 frequentist Type I 용어로 프레임*. *트랙 08 이 *그것을 *있는 그대로 이름 붙임*: *알아챌 도구 없는 배심 앞에서 *수행된 likelihood 를 posterior 로 교체하는 것*."

Frequentist 뷰, 요약

*트랙 06 에서*: *검찰이 *likelihood (예: '피고가 무죄라면 이 DNA 일치 확률이 10억 분의 1') 를 제시하고 *배심이 *그걸 posterior 로 번역하게 둠* ('*그러므로 무죄 확률이 10억 분의 1'). *Frequentist 비판*은 *이게 valid 하지 않다는 것* — *likelihood 와 posterior 는 *다른 조건부 확률* — *그리고 결과 시스템의 Type I 오류율이 *이름 붙은 수치가 시사하는 것보다 훨씬 높다는 것*.

베이즈 뷰, 명시적

*이 트랙의 어휘에서*: *검찰이 *P(E | H₀ = 무죄), *귀무 하 likelihood 제시*. *배심이 원하는 건 *P(H₀ = 무죄 | E), *posterior*. *베이즈 정리가 다리*:

P(무죄 | E) = P(E | 무죄) × P(무죄) / P(E)

*다리가 prior P(무죄) 요구* — *이 기소를 마주한 *모든 피고 중 무죄의 기본 비율*. *그 prior 가 *법체계가 *논의를 회피하는 폭발적 구성요소*, *정치적으로 독성이라서*. (*이 인종/계급/지역의 *무작위로 선택된 피고에 대해 *유죄의 사전확률이 무엇*? *누구의 숫자야 그게*?) *법체계가 *그 위에 숫자 놓기 거부*; *베이즈 프레임이 *질문이 건너뛰어지는 걸 거부*.

수치 시연

*인용된 무작위-일치 확률 100만 분의 1 의 DNA 일치 상상*. *검찰이 *이게 압도적 유죄 증거라고 말함*. *베이즈주의자가 읽음*:

*P(일치 | 유죄) ≈ 1 (당연히 피고가 출처)*.
*P(일치 | 무죄) = 1 / 1,000,000 (인용된 무작위-일치 확률)*.
*P(유죄) prior = 사건에 의존*.

*경찰이 일치를 위해 100만 명 데이터베이스를 검색했다면, *우연으로만 일치 기대 수가 ~1* — *그래서 일치 발견이 *추가 맥락 없이 유죄에 대해 거의 아무것도 안 알려줌*. *Prior P(유죄) 가 매우 낮으면 (지정 안 된 용의자에 대해 0.0001 이라 하자), *posterior P(유죄 | 일치) 가 *여전히 '합리적 의심을 넘어서' 훨씬 아래*. *'백만 분의 1' 수치가 *증명처럼 느껴짐*; *베이즈 번역에서는 *유죄 선고에 강한 prior 필요한 *약한 신호*.

시민 렌즈

*검사의 오류는 *베이즈 다리 없이 *likelihood 를 posterior 로 변환하는 것*. *다리가 prior 요구*, *그리고 *prior 가 *법체계가 보이지 않게 만드는 것*. *누락된 prior 를 이름 붙일 수 있는 시민이 *검찰 통계를 옳게 읽을 도구를 가짐*; *못 하는 시민이 *검찰이 선택한 프레이밍의 자비에 맡겨짐*. *트랙 06 이 *frequentist 언어로 프레임 분해*; *이 lesson 이 *베이즈로 같은 일*. *두 언어 모두 같은 결론 도달*: *누락된 조각이 prior, *그리고 *그것 없는 변환이 *통계적으로 문맹*.

Code

DNA 일치 posterior 가 *prior 에 엄청나게 의존*·python

# *명시적 베이즈로 DNA 일치 예시*.
def bayes(prior, likelihood_H, likelihood_not_H):
    num = likelihood_H * prior
    den = num + likelihood_not_H * (1 - prior)
    return num / den

P_match_if_guilty = 1.0
P_match_if_innocent = 1 / 1_000_000

# *같은 피고 사건에 대한 세 다른 prior*.
for prior_guilty in (0.5, 0.01, 0.0001):
    post = bayes(prior_guilty, P_match_if_guilty, P_match_if_innocent)
    print(f"prior P(유죄) = {prior_guilty:>7.4f}  →  posterior P(유죄 | 일치) = {post:.5f}")

# *Prior 0.5 (목격자 또는 다른 강한 사전-증거): posterior 1.0 근처*.
# *Prior 0.01 (약한 사전 증거가 있는 차가운 데이터베이스 hit): posterior ~99%*.
# *Prior 0.0001 (넓은 데이터베이스의 무작위 차가운 hit): posterior ~9%* — *'합리적 의심을 넘어서' 훨씬 떨어짐
#   '백만 분의 1' 헤드라인에도 불구하고*.
# *숫자가 prior 에 *엄청나게 의존*. *그 의존이 *무시되면 검사의 오류*.

Exercise

*형사 사건에서 DNA 증거 (또는 어떤 '확률' 통계) 사용을 포함하는 최근 뉴스 보고 찾기*. *인용된 likelihood ('N 분의 1' 수치) 식별*. 그러고 나서 물어: *암묵적으로 가정된 prior P(유죄) 가 무엇이고, *prior 가 검찰이 시사하는 것의 1/10 또는 1/1000 이라면 posterior 가 무엇일까*? *대부분 검찰 통계가 이 질문 하 무너짐*.

Hint

*변호의 일은 부분적으로 *prior 를 가시화하는 것*. *밖에서 보는 시민의 일*은 *어느 prior 가 암묵적으로 가정되는지 묻고 *옹호 가능한지* 묻는 것*.