"평균은 통계에서 *가장 무기화된* 숫자야. 비대칭 분포가 그 무기가 *가장 큰 피해*를 내는 곳이야."
비대칭이 뭐인지
분포가 *비대칭 (skewed)* 이란 건 *대칭이 아니라는* 뜻이야. 두 가지 맛:
- Right-skewed (양의 비대칭): *긴 꼬리가 오른쪽*. 큰 값 몇 개가 오른쪽을 늘려. 평균 > 중앙값. 예시: 소득, 집값, 작업 완료 시간, 파일 크기.
- Left-skewed (음의 비대칭): *긴 꼬리가 왼쪽*. 작은 값 몇 개가 왼쪽을 늘려. 평균 < 중앙값. 예시: 인간 수명 (모두 어리거나 늙어 사망, 긴 꼬리는 *짧은 삶*), 천장 근처의 시험 합격률.
일상 데이터에서는 *right-skew 가 훨씬 흔해*, *많은 실제 양이 아래로는 0 으로 막혀있고 위로는 안 막혀 있어서* (음의 소득이나 음의 시간이 불가).
평균은 *긴 꼬리 쪽으로 흘러*
중앙값은 *분포를 두 같은 절반으로 자르는 값*; 꼬리 값이 얼마나 극단적인지 *신경 안 써*. 평균은 *균형점*; 신경 *써*, 그리고 *긴 꼬리가 있는 쪽으로 흘러*.
소득 같은 right-skewed 분포에서, 평균은 *고소득자 몇 명에 의해 위로 끌려*. 한 나라의 '평균 소득' 은 *전형적 시민이 버는 것보다 거의 늘 더 커*. *중앙값은 가운데 사람이 얼마 버는지 알려주고*; *평균은 아무도 실제로 안 버는 숫자를 알려줘*.
정전형 시민 재앙
아빠의 자산 분포 분석
아빠가 한 번 한국 자산 분포를 분석했고 *이미 의심했던 것*을 발견했어: *심하게 right-skewed*. 상위 0.1% 가 *불비례적인 몫*을 가지고, 위쪽 꼬리가 *오른쪽으로 멀리 늘어나고*, 헤드라인이 사랑하는 '평균 자산' 수치는 *중앙 가구가 실제 보유한 것보다 의미 있게 커*. '평균이 전형적 한국인의 부' 라고 인용하는 사람은 *분포가 어떤 모양인지* 라는 질문을 건너뛴 거고 — 그 건너뜀이 *실수 전체*야. (트랙 05 에서 보일 거지만 이건 단순 비대칭도 아니야; *동물원의 다음 동물, 멱법칙*이야.)