C.W.K.
Stream
Lesson 03 of 06 · published

정규: 다들 얘기하는 그 종 모양

~12 min · normal-distribution, bell-curve, gaussian, foundations

Level 0통계 초심자
0 XP0/55 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete
"종 모양은 통계의 슈퍼스타 중 하나야 — 그리고 모든 슈퍼스타가 그렇듯, *안 맞는 곳에서도 자주 끌려나와*."

종 모양이 *실제로 뭔지*

정규분포 (Gaussian — Carl Friedrich Gauss 이름) 는 *두 숫자*로 정의되는 연속 분포: 평균 μ (봉우리 위치) 와 표준편차 σ (종이 얼마나 퍼져 있는지). 확률 밀도가 그 유명한 *종 모양*으로 보여, *완벽히 대칭*, 봉우리는 평균에, 퍼짐은 *오직 σ 가 통제*.

PDF 공식은 위협적으로 생겼지만 *시민에게는 안 중요해*: *시각 직관*이 중요한 거. 종은 양쪽으로 *똑같이* 떨어져; *떨어지는 속도가 σ 에 의해 통제*. 작은 σ = 좁고 높은 종. 큰 σ = 넓고 납작한 종.

왜 그렇게 자주 나오는지 (트랙 03 예고)

트랙 03 에서 유도할 *중심극한정리*가 말해: *많은 작은 독립적 무작위 효과를 합 (또는 평균)* 하면 결과가 *정규처럼 보이는 경향이 있다* — *개별 효과가 어떻게 생겼든 상관없이*. 이게 측정 오차, 성인 키, IQ 점수, 그리고 천 가지 다른 양이 *대략 종 모양 분포*인 이유야.

종 모양은 *자연의 신비로운 보편 법칙*이 아니야. *한 특정 setup 의 수학적 결과*야: 많은 작은 독립적 요인이 합해질 때. 그 setup 이 성립하면 종이 *자동으로 등장*. 성립 안 하면 — 요인들이 상관되거나, 한 요인이 지배하거나, 기저 과정이 *덧셈이 아니라 곱셈*이거나 — 종은 *안 등장*하고, 가정하면 *거짓말해*.

그 유명한 어림셈 규칙

정규분포에서 *68–95–99.7 규칙*이 성립:

  • 값의 약 68% 가 평균에서 1σ 안.
  • 95% 가 2σ 안.
  • 99.7% 가 3σ 안.

이 렌즈를 트랙 04 가 *날카롭게* 갈 거야: *σ 는 직관적 놀람의 단위*야. 2σ 값은 *적당히 놀라움*; 3σ 는 *매우 놀라움*; 5σ 또는 6σ 는 *정규 가정 하에 사실상 불가능*. 실제 데이터에서 5σ 사건이 *자주* 일어나면 그 데이터는 *정규가 아니야* — 끝.

일찍 박아둘 함정

정규 가정은 *편하지만 틀리면 비싸*. 정규는 *얇은 꼬리*를 가져 — 극값이 *멀어질수록 지수적으로 희귀*. 두꺼운 꼬리를 가진 실제 분포 (소득, 자산 수익률, 네트워크 트래픽, 지진 규모) 는 극값이 *지수적으로 희귀하지 않아*, 그래서 정규를 fit 한 모든 모델이 *뒤통수 맞아*. 종 모양은 *동물원의 동물 중 하나*지 *동물원 그 자체*가 아니야. 트랙 07 에서 이 함정을 *완전히 분해*할 거야.

Code

68-95-99.7 규칙, 시뮬레이션·python
import numpy as np
rng = np.random.default_rng(8)

# 평균 100, std 15 인 정규에서 10만 샘플 (IQ 스타일).
x = rng.normal(loc=100, scale=15, size=100_000)

# 68-95-99.7 규칙, 경험적으로 확인.
for k in (1, 2, 3, 4, 5):
    within = ((x > 100 - k * 15) & (x < 100 + k * 15)).mean()
    print(f"{k} sigma 안: {within:.4f}   (예상 ~{[0.6827, 0.9545, 0.9973, 0.99994, 0.999999][k-1]:.4f})")

# 꼬리가 얼마나 빨리 얇아지는지 봐.
# 정규의 5-sigma: 백만에 약 6번. 실제 두꺼운 꼬리 데이터에서는
# 만 명에 6번처럼 일어날 수도 있어. *종이 위 같은 숫자, 현실에서는 엄청 다른 의미*.
# 이걸 오독하는 게 트랙 07 의 씨앗이야.

External links

Exercise

정규에 가까울 거라고 의심되는 실제 양 셋 골라 (사는 나라의 성인 신발 사이즈, 루틴 주의 일일 걸음 수, 보통 아침 통근 시간). 각각에 대해 물어: *이게 많은 작은 독립적 요인의 합인가*? Yes 면 정규가 그럴듯. *지배하는 단일 요인* 하나 이름 댈 수 있으면 (비 오는 날 하루가 통근을 폭발시킴) *의심해* — 종이 안 맞을 수 있어.
Hint
중심극한정리의 *전제조건*이 '많은 작은 독립적 요인'. *결론을 믿기 전에 전제조건을 확인해*.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.