"충분한 비교로, *종 곡선이 우연으로 유의를 건네줄 거야*. *재현 위기는 이게 발견으로 오인될 때 일어나는 일*."
메커니즘
*참 귀무가설 하, ~5% 통계 검정이 *순 우연으로* p < 0.05 받음* (*α = 0.05 에서 Type I 오류율*). *귀무에 대해 20 개 독립 검정 돌리면, 기댓값은 *실제 일어나는 일이 없는데도 하나가 '유의' 할 것**.
*'P-hacking' 은 이걸 이용하는 것* — *명시적으로 또는 우발적으로* — *많은 검정 돌려서, p < 0.05 친 것 선택, *그것만* 보고*. *보고된 p-value 가 *묘사하는 단일 검정에 대해서는 기술적으로 맞아*. *선택 과정 — 많이 보고 하나 보고 — 이 문제*. *출판된 p-value 는 *연구자가 결과 보기 전에 주사위를 여러 번 던졌다는 사실을 누락*.
흔한 형태
- 많은 결과 지표 시도: *'15 가지 다른 것 측정; 하나가 통계적으로 유의'*. *놀랍지 않음*.
- 많은 하위그룹 시도: *'전체적 효과는 없지만, *30-40 세 왼손잡이 여성에서 p < 0.05 결과**.
- 많은 모델 명세 시도: *'이 공변량 사용하고 이 이상치 제외하면, 효과가 유의해짐'*.
- 결과가 유리할 때 데이터 수집 중단: *'p 가 0.05 를 가로지를 때까지 연구 돌리고 멈춤'*.
- 'forking paths 의 정원': *연구자가 많은 작은 분석 결정을 하고, 합쳐서 *많은 암묵적 검정을 돌리는 것에 해당* — *p-hack 의도 없이도*.
다중 비교 보정
*많은 검정을 돌려야 할 때 해결책*은 *비교 수에 대해 임계를 *보정*하는 것*. *Bonferroni 보정이 가장 간단*: *M 검정 돌리면, 검정당 임계를 α/M 으로 낮춤*. 20 검정 = 각각 α = 0.05/20 = 0.0025. *보수적*; *고차원 설정에서 *더 나은 절차* (False Discovery Rate, Benjamini-Hochberg) 존재*.
*사전 등록 (Pre-registration) 이 사회적 해결책*: *측정할 것, 어떻게 측정할 것인지, 어떤 검정 돌릴지 사전에 발표*. *그러면 *어떤 '탐색적' 분석도 그렇게 라벨링되고 확정적으로 가장할 수 없음*.