"CLT 가 주는 *가장 유용한 것*이 *평균의 표집 분포*야. 그 단일 객체가 *존재하는 모든 신뢰구간과 모든 t-검정을 떠받쳐*."
한 평균, 많은 가능성
모집단에서 *크기 N 의 샘플 하나* 뽑아. *표본 평균 계산*. 이제 *다시 한다고 상상* — *다른 무작위 N 샘플, 다른 평균*. *수천 번 반복*. *그 표본 평균들의 모음이 자기 분포*를 가져, 평균의 표집 분포라 불러.
이게 *CLT 가 진짜 말하는 객체*. 통계학자가 '*평균의 표집 분포가 큰 N 에 대해 대략 정규*' 라고 말할 때 의미: *크기 N 의 모든 가능한 샘플에서 얻을 모든 평균을 상상하면, 그 상상된 모음의 모양이 종 같다*, *기저 데이터가 그렇지 않을 때도*.
표준 오차
*표집 분포의 표준편차에 자기 이름*이 있어: *표준 오차 (standard error, SE)*. 표본 평균에서 *SE = σ / √N* — *모집단 표준편차를 표본 크기의 제곱근으로 나눈 것*. *SE 는 N 이 커질수록 줄어들지만 *제곱근만큼만**: *평균의 불확실성을 절반으로 줄이려면 표본 크기가 *4배* 필요*, *2배가 아니라*.
이 *'제곱근 법칙' 이 CLT 의 가장 중요한 실용적 결과 중 하나*. *평균 추정을 두 배 정밀하게 만들려면 데이터가 얼마나 더 필요한지* 정확히 알려줘. 그리고 *큰 설문이 놀라울 정도로 정확하게 느껴지고* (수백만 유권자 조사 = 작은 SE) *작은 연구가 놀라울 정도로 흔들리게* 느껴지는 이유.
왜 신경 써야 하는지
*과학 논문이나 뉴스 기사에 보고된 모든 신뢰구간* — '40% 지지, ±3%' — *평균 (또는 비율) 의 표집 분포를 쓰는 것*. *±3% 는 표준 오차에서 유도*되고, *표준 오차는 CLT 에서 유도*. *CLT 전제조건이 성립할 때 이 구간이 의미 있어*: *연구를 여러 번 반복하면 그런 구간의 약 95% 가 참 모집단 값을 포함*.
*CLT 전제조건이 성립 안 하면* — *상관 샘플, 두꺼운 꼬리, 의존 관측* — *보고된 구간은 fiction*. *숫자는 맞는 산수; 해석은 fantasy*. *이게 출판된 연구의 주요 침묵 실패 중 하나*.