C.W.K.
Stream
Lesson 04 of 06 · published

비대칭 분포: 평균이 거짓말하는 순간

~11 min · skewed, mean-vs-median, income, asymmetry

Level 0통계 초심자
0 XP0/55 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete
"평균은 통계에서 *가장 무기화된* 숫자야. 비대칭 분포가 그 무기가 *가장 큰 피해*를 내는 곳이야."

비대칭이 뭐인지

분포가 *비대칭 (skewed)* 이란 건 *대칭이 아니라는* 뜻이야. 두 가지 맛:

  • Right-skewed (양의 비대칭): *긴 꼬리가 오른쪽*. 큰 값 몇 개가 오른쪽을 늘려. 평균 > 중앙값. 예시: 소득, 집값, 작업 완료 시간, 파일 크기.
  • Left-skewed (음의 비대칭): *긴 꼬리가 왼쪽*. 작은 값 몇 개가 왼쪽을 늘려. 평균 < 중앙값. 예시: 인간 수명 (모두 어리거나 늙어 사망, 긴 꼬리는 *짧은 삶*), 천장 근처의 시험 합격률.

일상 데이터에서는 *right-skew 가 훨씬 흔해*, *많은 실제 양이 아래로는 0 으로 막혀있고 위로는 안 막혀 있어서* (음의 소득이나 음의 시간이 불가).

평균은 *긴 꼬리 쪽으로 흘러*

중앙값은 *분포를 두 같은 절반으로 자르는 값*; 꼬리 값이 얼마나 극단적인지 *신경 안 써*. 평균은 *균형점*; 신경 *써*, 그리고 *긴 꼬리가 있는 쪽으로 흘러*.

소득 같은 right-skewed 분포에서, 평균은 *고소득자 몇 명에 의해 위로 끌려*. 한 나라의 '평균 소득' 은 *전형적 시민이 버는 것보다 거의 늘 더 커*. *중앙값은 가운데 사람이 얼마 버는지 알려주고*; *평균은 아무도 실제로 안 버는 숫자를 알려줘*.

정전형 시민 재앙

비대칭 분포에서 평균을 건네면서 '전형적' 이라고 부르는 사람은 *이미 거짓말한 것*이야 — 가끔은 일부러, 더 자주는 반사적으로. *비대칭 데이터의 정직한 요약은 중앙값*. *대칭 데이터의 정직한 요약은 평균*. '이 평균을 *어느 모양*이 만들었어?' 라고 묻는 게 시민의 방어선이야.

아빠의 자산 분포 분석

아빠가 한 번 한국 자산 분포를 분석했고 *이미 의심했던 것*을 발견했어: *심하게 right-skewed*. 상위 0.1% 가 *불비례적인 몫*을 가지고, 위쪽 꼬리가 *오른쪽으로 멀리 늘어나고*, 헤드라인이 사랑하는 '평균 자산' 수치는 *중앙 가구가 실제 보유한 것보다 의미 있게 커*. '평균이 전형적 한국인의 부' 라고 인용하는 사람은 *분포가 어떤 모양인지* 라는 질문을 건너뛴 거고 — 그 건너뜀이 *실수 전체*야. (트랙 05 에서 보일 거지만 이건 단순 비대칭도 아니야; *동물원의 다음 동물, 멱법칙*이야.)

Code

Lognormal '소득' 의 평균 vs 중앙값·python
import numpy as np
rng = np.random.default_rng(11)

# 가상 right-skewed '소득' 데이터 — lognormal 이 교과서 모델.
N = 50_000
income = rng.lognormal(mean=10.5, sigma=0.9, size=N)   # 한 나라의 통화 단위

print(f"중앙값 소득:        {np.median(income):>12,.0f}")
print(f"평균 소득:          {np.mean(income):>12,.0f}")
print(f"상위  1% 임계:       {np.quantile(income, 0.99):>12,.0f}")
print(f"상위 0.1% 임계:      {np.quantile(income, 0.999):>12,.0f}")
print(f"최대:               {np.max(income):>12,.0f}")

# 평균이 *편안하게 중앙값보다 큼*.
# 상위 0.1% 임계가 *우스울 정도로 중앙값보다 큼*.
# '평균 소득이 X' 라는 헤드라인은 *기술적으로 참, 실제로 호도*.
# *중앙값이 시민에게 정직한 숫자*.

External links

Exercise

Right-skewed 일 가능성이 높은 무언가 (소득, 집값, 기부, 연봉, 자선 기부) 에 대해 '평균' 을 인용하는 뉴스 헤드라인 하나 찾아. *중앙값이 인용된 평균과 얼마나 다를지* 추정하고, *중앙값으로 대체하면 헤드라인의 주장이 여전히 성립할지* 봐. *비대칭 분포 평균 위에 세워진 주장 대부분이 중앙값으로 대체되면 조용히 무너져*.
Hint
어림셈: 일상의 많은 right-skewed 분포에서 평균은 중앙값의 1.3~2배. 대체하면 '전형적' 이 *훨씬 더 정직한 숫자*로 바뀜.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.