마무리: 종은 *결과지 원인이 아니야* · Statistics Fundamentals Quest

"종이 등장하는 건 *현실이 종 모양이라서*가 아니야. *현실이 자주 집계되고, 집계에 모양이 있어서* 등장하는 거야."

이 트랙이 정착시킨 것

유도 5 lesson, 모두 *한 종합*을 가리켜. 종 모양은 *어떤 과정의 출력*이지 *입력이 아니야*. *그 과정*은: *유한 분산을 가진 많은 작은 독립적 기여를 합하고, 결과를 표준화*. *그 과정을 돌리면 종이 등장*. *안 돌리거나 — 전제조건을 위반하는 입력에 돌리면 — 종이 안 등장하거나 잘못된 이유로 등장*.

가지고 갈 세 가지

종은 *유도*지 *전통*이 아니야. *실제 데이터에서 종을 볼 때 물어*: *어떤 집계가 이걸 만들었어*? *유한 분산을 가진 많은 작은 독립적 기여를 식별 가능*하면 *종이 얻어진 것*. *못 하면 종이 빌려진 것* — 그리고 *종 사용자가 해야 할 유도를 건너뛴 거*.
CLT 의 전제조건은 *학술적이 아니야*. *독립성과 유한 분산이 떠받치는 요구*. 트랙 07 이 *조용히 위반될 때의 잔해*를 보여줄 거; 트랙 05 가 *성립한다고 가정하는 도구들*을 보여줄 거.
수학적 정규화는 *보편 패턴의 한 인스턴스*야. *CLT 의 표준화 단계가 뇌·카메라·오디오 컴프레서의 정규화와 같은 가족으로 인식 가능*. *통계는 별개 왕국이 아니야*; *지각이 늘 해온 것의 수학적 이름*.

다음에 오는 것

트랙 04 (sigma-as-lens) 가 *표준화 단계를 직관적 단위로* 바꿔 — *1σ, 2σ, 3σ 가 시민의 일상 측정 막대*. 트랙 05 (tools-on-normality) 가 *CLT 의 표집 분포 위에 신뢰구간, p-value, 가설 검정*을 세움. 트랙 06 (courtroom) 이 *가설-검정 기계를 법에 향하게* 하고 — *마침내 시민이 '저 죽일놈 왜 풀어주냐' 프레임을, 법이 그 위에 세워진 비대칭을 써서 분해할 위치*에 놓아.

*트릭은 같아*: *조건이 등장하면 종이 등장*. *조건이 안 등장하면 종은 실수* — 그리고 *실수의 비용이 이 quest 의 나머지*.

트랙 03 에서 한 문장만 기억한다면: *'종은 결과지 원인이 아니다'*. *종은 CLT 의 기계가 충족될 때 등장*. *세상이 본질적으로 종 모양이라서 등장하지 않아*. *그 선 어느 쪽에 있는지 추적하는 게 우리가 분해할 나머지 오용에 대한 시민의 첫 방어*.

Code

두 평균, 하나는 신뢰 가능, 하나는 안 됨·python

import numpy as np
rng = np.random.default_rng(80)

# 두 시나리오 나란히, 둘 다 '평균 측정':
# (A) CLT 전제조건 성립: 독립, 유한 분산.
# (B) CLT 전제조건 위반: 상관.

N = 200
M = 5_000

# (A) 독립.
A = rng.normal(size=(M, N))
A_mean = A.mean(axis=1)

# (B) 공유 요인을 통해 상관.
common = rng.normal(size=(M, 1))
idio = rng.normal(size=(M, N))
B = 0.7 * common + 0.3 * idio
B_mean = B.mean(axis=1)

for label, x in [("독립 (CLT 성립)", A_mean), ("상관 (CLT 깨짐)", B_mean)]:
    z = (x - x.mean()) / x.std()
    pct_3sigma = (np.abs(z) > 3).mean()
    print(f"{label:>27s}: SE={x.std():.3f}  P(|z|>3)={pct_3sigma:.4f}")

# 시나리오 A: P(|z|>3) ~ 0.003, *정규와 일관*.
# 시나리오 B: *SE 가 훨씬 크고 꼬리가 말이 안 되게 행동*.
# *같은 산수 '평균 계산'; 엄청나게 다른 과학적 의미*.
# *시민의 일은 숫자를 인용하기 *전에* 어느 시나리오에 있는지 아는 것*.

Exercise

이번 주에 만난 *어떤 '평균'* 이든 골라 (뉴스, 논문, 앱 대시보드, 친구 주장). 시민의 테스트 통과: (1) *평균 내는 기저 X 가 뭐야*? (2) 그 X 들이 *그럴듯하게 독립*이야? (3) *분산이 그럴듯하게 유한*이야? (4) *N 이 X 의 비정규성에 비해 충분히 큰가*? *어느 답이라도 아니거나 불명*이면, *평균은 보이는 것보다 더 흔들리고*, *그 위에 세워진 어떤 'X sigma' 나 '신뢰구간' 도 더 흔들려*.

Hint

일상에 인용되는 평균 *대부분이 이 테스트 중 최소 하나에서 실패*, 자주 *조용히*. *기술은 알아채는 것*, *모든 통계에 대해 nihilist 가 되지 않으면서* — *목표는 calibration 이지 paralysis 가 아니야*.

마무리: 종은 결과지 원인이 아니야

이 트랙이 정착시킨 것

가지고 갈 세 가지

다음에 오는 것

Code

External links

Exercise

Progress

댓글 0