"분포는 *놀람의 레시피*야. *값 하나를 뽑았을 때 가능한 답 각각에 얼마나 놀라야 하는지* 알려줘."
이 단어, 생각보다 큰 의미야
통계 교과서가 'X 의 분포' 라고 할 때, *값의 리스트*를 뜻하는 게 아니야. *각 값이 얼마나 자주 일어나는지* (이산 X) 또는 *값이 얼마나 빽빽하게 모여있는지* (연속 X) 를 묘사하는 완전한 규칙집이야. 분포는 변수의 *전체 확률적 자서전*이야. 평균과 분산은 *요약*; 분포 자체가 *전체 이야기*야.
두 가지 맛
이산: 변수가 셀 수 있는 값을 가짐 — 동전 10번 던졌을 때 앞면 수, 1시간 동안 가게에 들어온 손님 수. 가능한 각 값마다 *확률*이 있어. 그 모음을 *확률 질량 함수 (PMF)* 라 불러. 확률 합 = 1.
연속: 변수가 *연속체*에서 값을 가짐 — 사람 키, 내일 주가. *개별 값은 확률 0* (키는 무한히 많아). 확률을 가지는 건 *값의 범위*야. 밀도를 묘사하는 함수가 *확률 밀도 함수 (PDF)*. PDF 밑의 면적이 적분해서 1.
이산이든 연속이든 규칙은 같아: *분포는 가능성 범위에 확률이 어떻게 퍼져있는지 묘사해*.
히스토그램이 경험적 분포야
일상 데이터 plot 에서 보는 히스토그램은 *기저 분포의 유한-샘플 근사*야. 관측 값을 bin 으로 묶고, 각 bin 에 몇 개 들어가는지 세고, 결과 막대 높이가 *참 PMF/PDF 를 추정*해. 샘플이 충분하면 히스토그램이 *진짜 분포로 수렴*. 샘플이 적으면 *거짓말해*.
그 수렴이 *큰 수의 법칙* 자체고, 다음 트랙이 그걸로 종 모양을 유도할 거야. *히스토그램 → 분포* 동작이 시민의 추상 아이디어 첫 접촉이고 — *대부분 사람은 거기서 멈춰*. 전체 quest 는 *막대 너머 분포 자체를 가졌을 때 뭘 할 수 있는지*야.
'분포' 라는 단어를 건너뛸 수 없는 이유
이게 다음에 어디로 가나
다음 세 lesson 이 시민에게 관련된 세 모양을 소개해: 정규 (lesson 3), 비대칭 (lesson 4), 멱법칙 (lesson 5). 이 트랙 마지막 lesson (6) 이 *두꺼운 꼬리* 가족을 *트랙 07 의 예고편*으로 이름 붙여. 그 다음 트랙 03 이 *왜 정규가 그렇게 자주 나오는지* 설명하고 — 트랙 07 이 *어디서 정규를 가정하면 조용히 망하는지* 설명해.