분포가 *실제로* 뭐야? · Statistics Fundamentals Quest

"분포는 *놀람의 레시피*야. *값 하나를 뽑았을 때 가능한 답 각각에 얼마나 놀라야 하는지* 알려줘."

이 단어, 생각보다 큰 의미야

통계 교과서가 'X 의 분포' 라고 할 때, *값의 리스트*를 뜻하는 게 아니야. *각 값이 얼마나 자주 일어나는지* (이산 X) 또는 *값이 얼마나 빽빽하게 모여있는지* (연속 X) 를 묘사하는 완전한 규칙집이야. 분포는 변수의 *전체 확률적 자서전*이야. 평균과 분산은 *요약*; 분포 자체가 *전체 이야기*야.

두 가지 맛

이산: 변수가 셀 수 있는 값을 가짐 — 동전 10번 던졌을 때 앞면 수, 1시간 동안 가게에 들어온 손님 수. 가능한 각 값마다 *확률*이 있어. 그 모음을 *확률 질량 함수 (PMF)* 라 불러. 확률 합 = 1.

연속: 변수가 *연속체*에서 값을 가짐 — 사람 키, 내일 주가. *개별 값은 확률 0* (키는 무한히 많아). 확률을 가지는 건 *값의 범위*야. 밀도를 묘사하는 함수가 *확률 밀도 함수 (PDF)*. PDF 밑의 면적이 적분해서 1.

이산이든 연속이든 규칙은 같아: *분포는 가능성 범위에 확률이 어떻게 퍼져있는지 묘사해*.

히스토그램이 경험적 분포야

일상 데이터 plot 에서 보는 히스토그램은 *기저 분포의 유한-샘플 근사*야. 관측 값을 bin 으로 묶고, 각 bin 에 몇 개 들어가는지 세고, 결과 막대 높이가 *참 PMF/PDF 를 추정*해. 샘플이 충분하면 히스토그램이 *진짜 분포로 수렴*. 샘플이 적으면 *거짓말해*.

그 수렴이 *큰 수의 법칙* 자체고, 다음 트랙이 그걸로 종 모양을 유도할 거야. *히스토그램 → 분포* 동작이 시민의 추상 아이디어 첫 접촉이고 — *대부분 사람은 거기서 멈춰*. 전체 quest 는 *막대 너머 분포 자체를 가졌을 때 뭘 할 수 있는지*야.

'분포' 라는 단어를 건너뛸 수 없는 이유

기저 분포 없는 요약 통계 (평균, 중앙값, 분산) 는 *엽서지 사진이 아니야*. 같은 평균이 정규, 멱법칙, 이봉, 긴 꼬리 분포에서 다 나올 수 있고 — *어느 모양이 그 평균을 만들었는지에 따라 올바른 결정이 완전히 달라져*. 요약 통계로만 행동하는 시민은 *엽서로 행동하는 것*이야.

이게 다음에 어디로 가나

다음 세 lesson 이 시민에게 관련된 세 모양을 소개해: 정규 (lesson 3), 비대칭 (lesson 4), 멱법칙 (lesson 5). 이 트랙 마지막 lesson (6) 이 *두꺼운 꼬리* 가족을 *트랙 07 의 예고편*으로 이름 붙여. 그 다음 트랙 03 이 *왜 정규가 그렇게 자주 나오는지* 설명하고 — 트랙 07 이 *어디서 정규를 가정하면 조용히 망하는지* 설명해.

Code

다른 세 모양, 같은 평균·python

import numpy as np
rng = np.random.default_rng(5)

# 매우 다른 세 분포에서의 세 샘플, 다 평균 ~100.
N = 10_000
normal_like   = rng.normal(loc=100, scale=15, size=N)
bimodal       = np.concatenate([rng.normal(70, 5, N // 2), rng.normal(130, 5, N // 2)])
power_law     = (rng.pareto(a=1.5, size=N) + 1) * 30   # 두꺼운 꼬리, 평균 ~100

for name, x in [("normal-like", normal_like), ("bimodal", bimodal), ("power-law", power_law)]:
    print(f"{name:>12s}: 평균={x.mean():6.1f}  중앙값={np.median(x):6.1f}  "
          f"std={x.std():6.1f}  max={x.max():7.1f}")

# 셋 다 평균이 100 근처. *평균만으로는 어느 모양이 만들었는지 아무것도 못 알아*.
# 중앙값, std, max 가 모양을 *조금씩 드러내기 시작*해.
# 히스토그램 그림이 *전체 이야기를 알려줘*.
# 요점: 요약은 엽서. *분포가 사진*.

Exercise

본인 인생의 숫자 셋 골라 — 월 식비, 월 지하철 탑승 횟수, 월 deep work 시간. 각각 *손으로* 분포 모양이 어떨지 그려봐 (대략 히스토그램). 각각에 대해 한 문장: *한 달 평균이 '전형적인 한 달' 을 대표할까, 중앙값이 더 정직할까*? 공식 등장 전에 *모양들 사이 차이를 느껴봐*.

Hint

비슷한 작은 사건 횟수 (지하철 탑승) 는 루틴 주변에서 대략 정규에 가까워. 지출은 *오른쪽 비대칭* (가끔 큰 외식). Deep-work 시간은 종종 *이봉* (좋은 주와 나쁜 주).

분포가 실제로 뭐야?

이 단어, 생각보다 큰 의미야

두 가지 맛

히스토그램이 경험적 분포야

'분포' 라는 단어를 건너뛸 수 없는 이유

이게 다음에 어디로 가나

Code

External links

Exercise

Progress

댓글 0