모집단 vs 표본: 엿보기 문제

네가 원하는 것 vs 볼 수 있는 것

모집단 = 모든 가능 데이터의 완전한 우주 — 발화된 모든 단어, 찍힌 모든 사진, 존재할 모든 고객. 모집단 전체 관측 불가능. 너무 크고, 분산돼있고, 일부는 미래.

표본 = 실제 관측한 것 — 유한 부분집합. 학습 데이터셋. 1,000명 유권자 여론조사. 지난 분기 고객 행동. 통계학자 (또는 ML 엔지니어) 의 목표: 표본 써서 모집단의 진실 추론.

표본 → 모집단 다리

통계의 게임 전체 = 표본에서 모집단 추론을 얼마나 신뢰할 수 있는지 알기. 큰 표본 = 더 많은 신뢰; 편향된 표본 = 크기 무관하게 틀린 답.

ML 에선: 학습 데이터 = 표본. 배포된 모델은 본 적 없는 입력 포함 모집단에 일반화. 표본이 모집단 닮을수록 모델 일반화 잘 됨. 데이터 품질 = 표본 품질.

모집단이 진실. 표본이 가진 것. ML 의 art = 책임 있게 도약 — 도약은 늘 베팅임을 알기.

Code

표본 크기 따라 추정·python

import numpy as np

# 진짜 모집단 평균 (실생활에선 모름)
population = np.random.normal(loc=100, scale=15, size=1_000_000)
true_mean = population.mean()
print(f"진짜 평균: {true_mean:.3f}")

# 30 표본 — 추정?
sample = np.random.choice(population, size=30)
print(f"표본 평균 (n=30): {sample.mean():.3f}")

# 더 큰 표본
sample = np.random.choice(population, size=10_000)
print(f"표본 평균 (n=10000): {sample.mean():.3f}")
# 큰 표본 → 추정이 진실로 수렴

Exercise

1,000,000 임의 숫자 모집단 생성. 크기 10, 100, 1000, 10000 표본 추출. 각각 표본 평균 계산. 4개 다 plot/print. 작은 표본은 평균이 흔들리고 큰 건 안정됨을 보기.

Hint

np.random.choice(population, size=n) 이 표본. 큰 n → 추정이 진짜 평균 가까이 — 큰 수의 법칙 등장.

모집단 vs 표본: 엿보기 문제

네가 원하는 것 vs 볼 수 있는 것

표본 → 모집단 다리

Code

External links

Exercise

Progress

댓글 2