P-Value: *실제로 뭘 말하는지* · Statistics Fundamentals Quest

"P-value 는 *현대 생활에서 가장 오독되는 숫자 중 하나*야. *그게 *아닌 것*을 이름 붙이는 게 lesson 의 반*."

정의

P-value 는: *귀무가설이 참이라고 가정할 때, 실제 데이터만큼 (또는 더) 극단인 데이터를 관측할 확률*. 형식적으로:

p-value = P(이만큼 극단 또는 더 | H₀ 참)

*작은 p-value 는 귀무가 참이면 관측된 데이터가 가능성 낮다는 의미*. *작은 p-value 가 귀무 기각의 이유를 줘*. *그 자체로 귀무가 참일 확률, 대립이 참일 확률, 효과 크기, 효과의 실용적 중요성, 결과가 재현될지를 알려주지 안 함*.

시민이 하는 오독

가장 흔한 오독: *'p = 0.03 은 귀무가설이 참일 확률이 3% 라는 뜻'*. *틀림*. *그 문장이 조건부를 뒤집어*. *P-value 는 P(데이터 | 귀무), P(귀무 | 데이터) 가 아니야*. *둘을 뒤집는 게 다시 *검사의 오류*.

*P(데이터 | 귀무) 에서 P(귀무 | 데이터) 로 가려면 베이즈 정리와 prior 가 필요* — *정확히 트랙 08 이 할 동작*. *Frequentist p-value 만으로는 그 posterior 를 못 줘*. *대부분 출판된 '통계적으로 유의' 한 결과가 *조용히 그렇게 다뤄짐*, 그리고 그 *조용한 미끄러짐이 현대 과학 재현 위기의 주요 엔진 중 하나*.

'통계적 유의' 가 실제로 사주는 것

*'α = 0.05 에서 유의' 가 의미*: *귀무가 참이면 이런 종류의 증거가 무작위 노이즈로 5% 이하 시간에만 나타남*. *효과가 *실제, 큰, 중요한, 재현 가능* 하다는 의미가 아니야*. *데이터가 5% 노이즈 관용에서 귀무와 양립 불가*. *그게 *일상 언어에서 '통계적으로 유의' 가 시사하는 것보다 훨씬 작은 주장**.

가지고 갈 세 가지

*(1) P-value 는 *귀무에 대한 조건부*지 귀무에 대한 확률이 아니야. (2) 통계적 유의는 *거짓 알람에 대한 관용*이지 *진실의 주장이 아님*. (3) P-value 를 '가설이 얼마나 가능한가?' 로 변환하려면 *prior 가 필요* — 그리고 그게 *순수 frequentist 도구상자에서 베이즈로 나가게* 함*. *이 세 가지 외워둬*; *그러면 즉시 뉴스와 논문의 대부분 p-value 를 *인용한 헤드라인보다 더 정확하게* 읽게 됨*.

Code

참 귀무 하 p-value: 노이즈 바닥·python

import numpy as np
from math import erf, sqrt
rng = np.random.default_rng(130)

# 귀무가설 하에서 *p-value 가 균등분포*함을 보임.
# *실제 효과 없는* 100,000 개 '실험' 시뮬 (p_true = 0.5).
# 각각에 대해 *1-샘플 z-검정 p-value* 계산.
# 귀무 하에서 p-value 가 *[0, 1] 위에 대략 균등*.

N = 200
M = 100_000
p_true = 0.5     # 귀무가 정확히 참

flips = rng.binomial(n=1, p=p_true, size=(M, N))
p_hat = flips.mean(axis=1)
z = (p_hat - 0.5) / np.sqrt(0.5 * 0.5 / N)

# |z| 에서 양측 p-value.
p_values = np.array([2 * 0.5 * (1 - erf(abs(zi) / sqrt(2))) for zi in z])

for threshold in (0.05, 0.01, 0.001):
    fraction_significant = (p_values < threshold).mean()
    print(f"P(p < {threshold:.3f}) 참 귀무 하: {fraction_significant:.4f}  "
          f"(예상: {threshold:.4f})")

# *참 귀무 하, ~5% 실험이 *우연으로* 여전히 p < 0.05 받음*.
# *그 5% 가 Type I 오류율*, *alpha 임계에 박혀 있음*.
# *교훈: 단일 p < 0.05 는 강한 증거가 아니야 — *노이즈 바닥*.

Exercise

*P-value 를 인용하는 논문이나 뉴스 기사* 찾아 (의학, 심리학, 금융, 사회과학 어디서든). 각각에 대해 *p-value 를 정밀하게 재진술*: *'귀무가설 [명시적으로 이름] 이 참이라고 가정하면, 이만큼 극단인 데이터를 관측할 확률이 [p]'*. 그러고 나서 *기사의 표현이 조용히 '효과가 실재하지 않을 확률이 [p]' 로 미끄러지는지* 봐 — *그게 우리가 고치려는 오독*.

Hint

*대부분 대중 과학 글이 이 미끄러짐을 함*. *한 번 발견하면 미래의 모든 결과를 어떻게 읽을지 재보정하기에 충분*.

P-Value: 실제로 뭘 말하는지

정의

시민이 하는 오독

'통계적 유의' 가 실제로 사주는 것

가지고 갈 세 가지

Code

External links

Exercise

Progress

댓글 0

정의

시민이 하는 오독

'통계적 유의' 가 *실제로 사주는 것*

가지고 갈 세 가지

Code

External links

Exercise

Progress

'통계적 유의' 가 실제로 사주는 것