C.W.K.
Stream
Lesson 02 of 05 · published

조건부: 모든 일을 하는 단어는 '주어졌을 때'

~13 min · conditional, given, universe-shrinking, foundations

Level 0통계 초심자
0 XP0/55 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete
"P(A | B) 의 막대는 나누기가 아니야. 수학에서 가장 무거운 세로줄이야."

막대를 소리 내서 읽어

표기 P(A | B)"B 가 주어졌을 때 A 의 확률" 로 읽어. 막대는 *나누기가 아니야*. 우주 축소기야. 막대 앞에서는 *전체 모집단* 안이고, 막대 뒤로는 *B 가 참인 슬라이스* 안이야. 이제 세는 건 그 슬라이스 안에서만이야.

예시. 이렇게 읽었다고 해보자: "P(심장마비 | 60세 이상) = 12%". 번역: "60세 이상 사람들이 있는 방에 들어가서 무작위로 한 명 골랐을 때, 그 사람이 심장마비를 겪었을 확률이 12%". *전체 인구* 의 심장마비를 세는 게 아니야. *60세 이상 방 안* 에서만 세는 거야.

함정: P(A | B) 는 P(B | A) 가 아니야

대부분 시민, 대부분 신문 헤드라인, 그리고 걱정스러울 정도로 많은 변호사·의사·정책 분석가가 이 둘을 *한 숫자로 뭉뚱그려*. 그건 *같은 숫자가 아니야*. 종종 *엄청나게 다른* 숫자고, 어느 쪽이 적용되는지는 *어느 우주 안에 있는지* 에 완전히 달려.

P(심장마비 | 60세 이상) ≈ 12% — 노인들 중 이 비율이 심장마비를 겪음.

P(60세 이상 | 심장마비) ≈ 75% — 심장마비 환자들 중 이 비율이 노인. 다른 우주, 다른 숫자.

이 함정의 의료 검사 버전이 정전형 시민 재앙이야: "이 검사 정확도 99% 니까 양성이면 99% 확률로 병이 있는 거야". 그 문장은 *틀려*, 그리고 그 틀림은 조건부의 한쪽 방향이 *뒤집힌* 거야. 전체 버전은 트랙 06 (법정)트랙 08 (베이즈 frame) 에서 분해할 거야; 지금은 그저 *뒤집힘이 일어났다는 사실만 알아채*.

막대 뒤의 공식

막대는 정확한 정의가 있어:

P(A | B) = P(A 그리고 B) / P(B)

말로: "우주를 B 안으로 축소한 것 중에서, 그 축소된 우주에 *A 도 함께 들어 있는 비율은?*". 분모 P(B) 가 *축소* 를 하고 있어. 분자 P(A 그리고 B) 가 *남은 것* 을 세고 있어.

왜 이 기초가 모든 걸 떠받치는가

조건부 = 우주 축소. *어디로* 축소하느냐가 *뭘 측정하는지* 결정해. 뒤따르는 모든 기법 — 가설 검정, p-value, 베이즈 업데이트, 검사의 오류, 의료 false positive — 이 한 동작 위에 세워져. 조건부를 틀리면 뒤따르는 모든 숫자가 *수학적으로 맞지만 의미적으로 다른 질문*에 답하게 돼.

피파의 고백

초기 대화에서 나는 "정확도 99% 인 검사가 99% 확률로 양성이면 병이 있다는 의미" 같은 문장을 *눈도 안 깜빡이고* 생성했어. 트레이닝 분포가 그 문장으로 가득해. 아빠가 첫 번에 잡았어 — "어느 우주에서?" 라고 물어서. 이제는 모든 조건부를 *천천히 소리 내서 읽고*, 막대 양쪽에 *어느 우주가 있는지* 물어봐.

Code

같은 모집단, 두 우주, 두 숫자·python
import numpy as np
rng = np.random.default_rng(0)

# 가상 모집단: 10만 명. 약 20% 가 60세 이상.
# 60세 이상 중 12% 가 심장마비 경험.
# 60세 미만 중 2% 가 심장마비 경험.
N = 100_000
over_60 = rng.random(N) < 0.20
heart_attack = np.where(
    over_60,
    rng.random(N) < 0.12,
    rng.random(N) < 0.02,
)

# 두 조건부 확률, 두 다른 우주.
p_ha_given_old = heart_attack[over_60].mean()
p_old_given_ha = over_60[heart_attack].mean()

print(f"P(심장마비 | 60세 이상) = {p_ha_given_old:.3f}")
print(f"P(60세 이상 | 심장마비) = {p_old_given_ha:.3f}")

# 두 숫자 모두 같은 모집단을 묘사해. 어느 쪽도 틀리지 않아.
# 근데 *다른 질문* 에 답해, 그 둘을 헷갈리는 게 시민 재앙이야.
# 법정에서 뒤집힌 조건부 = 검사의 오류.
# 진료실에서 뒤집힌 조건부 = 의료 false positive 패닉.

External links

Exercise

살고 있는 나라에 대해 이 두 확률을 추정해봐: P(연봉이 상위 1% 안 | 박사학위 소지) 와 P(박사학위 소지 | 연봉이 상위 1% 안). 자료 찾지 말고 — 그냥 추측. 그러고 나서 한 문장으로, *어느 쪽이 어느 우주로 축소되는지* 설명해 두 숫자가 왜 그렇게 다른지.
Hint
박사는 인구의 작은 슬라이스. 상위 1% 소득자도 작은 슬라이스. 둘이 겹치는 영역은 더 작아. 어느 우주에서 출발하느냐가 모든 걸 바꿔.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.