네가 원하는 것 vs 볼 수 있는 것
모집단 = 모든 가능 데이터의 완전한 우주 — 발화된 모든 단어, 찍힌 모든 사진, 존재할 모든 고객. 모집단 전체 관측 불가능. 너무 크고, 분산돼있고, 일부는 미래.
표본 = 실제 관측한 것 — 유한 부분집합. 학습 데이터셋. 1,000명 유권자 여론조사. 지난 분기 고객 행동. 통계학자 (또는 ML 엔지니어) 의 목표: 표본 써서 모집단의 진실 추론.
표본 → 모집단 다리
통계의 게임 전체 = 표본에서 모집단 추론을 얼마나 신뢰할 수 있는지 알기. 큰 표본 = 더 많은 신뢰; 편향된 표본 = 크기 무관하게 틀린 답.
ML 에선: 학습 데이터 = 표본. 배포된 모델은 본 적 없는 입력 포함 모집단에 일반화. 표본이 모집단 닮을수록 모델 일반화 잘 됨. 데이터 품질 = 표본 품질.
모집단이 진실. 표본이 가진 것. ML 의 art = 책임 있게 도약 — 도약은 늘 베팅임을 알기.
엄청나게 큰 국 솥(population)에서 숟가락(np.random.choice)으로 딱 10방울(size=10)만 떠본다. 로봇은 작은 표본만 맛보고도 솥 전체의 염도를 맞히는 연습을 하는 중이다. 10방울보다는 한 국자가 더 정확하하다. 로봇은 데이터가 많아질수록 모집단의 진실에 다가간다. 헐! (로봇은 양질의 많은 데이터에 집착한다.)