C.W.K.
Stream
Lesson 01 of 05 · published

Galton 의 회귀: 평균의 *조용한 중력*

~11 min · galton, regression-to-mean, father-son-heights, noise

Level 0통계 초심자
0 XP0/55 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete
"Francis Galton 이 *매우 키 큰 아버지의 아들이 *키 크지만 아버지보다 짧은 경향*, *그리고 *매우 키 작은 아버지의 아들이 *키 작지만 아버지보다 큰 경향*을 알아챘어*. *그가 '평범으로의 회귀' 라 불렀어*. *우리는 평균 회귀라 불러*. *보든 안 보든 인생을 돌려*."

관찰

*1880년대, Francis Galton 이 *아버지의 키를 성인 아들의 키에 plot*. *명확한 패턴 발견*: *극단 아버지가 *극단 아들 가졌지만, *아들이 *아버지보다 덜 극단*. *매우 키 큰 아버지 (평균에서 2 표준편차 위라 하자) 가 *평균 위 약 1 표준편차의 아들을 가지는 경향* — *여전히 키 크지만, *인구 평균에 더 가까움*. *매우 키 작은 아버지가 *비슷하게 덜 작은 아들 가짐*. *Galton 이 이걸 '평범으로의 회귀' 라 불렀어* (*들리는 것보다 덜 거침* — *그저 '전형으로의 이동' 을 의미*).

*Galton 이 본 것은 *근본적 통계 현상, *생물학적인 게 아니야*. *같은 패턴이 *어떤 노이즈 측정에든 등장*: *극단 관측이 *덜-극단 관측에 의해 따라지는 경향*, *극단이 부분적으로 신호와 부분적으로 노이즈였고, *노이즈가 관측 사이에 새로워짐*.

왜 일어나나

*극단 관측이, *거의 정의상, *평균-이상 운 (양 또는 음) 의 누적*. *신호 (기저 참 값) + 노이즈 (무작위 변동) 가 *극단을 만든 것*. *신호가 지속*; *노이즈가 reset*. *다음 관측에서, *신호가 대략 같지만 *노이즈가 *새 주사위 굴림* — *그리고 평균적으로, *새 주사위가 이전 것보다 덜 극단*.

*이게 *극단 시험 점수가 *더 평균적 시험 점수에 의해 따라지는 경향인 이유*. *한 해 상을 받은 운동선수가 *다음 해 덜 인상적으로 수행하는 이유*. *기념비적 해를 가진 회사가 *더 정상적인 해로 따라지는 경향인 이유*. *'회귀' 가 *과거 성공에 대한 처벌이나 평범으로의 reversion 이 아니야*; *이전 극단의 노이즈 구성요소가 반복 안 하는 것*.

못 보는 시민 비용

*평균 회귀 못 보는 게 *많은 잘못된 추론의 원천*:

  • *두 번째 앨범의 저주*: *밴드의 첫 앨범이 거대 hit, *부분적으로 운*. *두 번째 앨범이 *밴드의 실제 재능 수준으로 회귀, *덜 극단*. *앨범이 실망으로 판단됨*. *'저주' 가 *노이즈 reset*.
  • *스포츠 슬럼프*: *예외적 시즌을 가진 선수가 *부분적으로 기술과 부분적으로 운*. *다음 시즌, *운이 새로워짐*; *선수가 여전히 기술 있지만 덜 운 좋음*; *수행이 회귀*. *해설자가 *왜 슬럼프 일어났는지 정교한 narrative 구축*.
  • *교육 개입*: *하위 10% 학교가 개입 받음*. *다음 해, 점수 개선*. *개입이 공을 차지*. *근데 하위 10% 가 *노이즈에서 극단이었고, *회귀만으로 어쨌든 개선했을 것*.
  • *'치료가 효과 있었다'*: *사람들이 *극단에 있을 때 치료 추구* (*매우 불안, 매우 우울*). *개선됨*. *치료가 공을 차지*. *개선의 일부가 평균 회귀*.

운영 원칙

*극단 관측 뒤 덜-극단인 것을 볼 때, *디폴트 설명이 *평균 회귀를 후보 원인으로 포함*해야 함 — *가능한 *지배 원인으로*. *노이즈-reset 가설을 배제한 *후에만 특정 인과 설명에 손 뻗기*. *일상의 *'X 가 한때 극단, 그러고 나서 바뀜' 모양의 *대부분 이야기*가 *부분적으로 평균 회귀*. *후보 이름 붙이기가 *존재 안 할 수 있는 원인에 귀속에 대한 시민의 방어*.

Code

Galton-스타일 평균 회귀, 시뮬레이션·python
import numpy as np
rng = np.random.default_rng(240)

# *Galton-스타일 시뮬*: *아버지 키 = 참 구성요소 + 노이즈*.
# *아들 키 = 같은 참 구성요소 + 새 노이즈*.
# *극단 아버지의 아들이 평균 쪽으로 회귀하는 걸 보임*.

N = 100_000
true_signal = rng.normal(loc=170, scale=5, size=N)        # 인구 평균 170, sd 5
noise_father = rng.normal(loc=0, scale=4, size=N)
noise_son = rng.normal(loc=0, scale=4, size=N)

father_height = true_signal + noise_father
son_height = true_signal + noise_son

# *키 bin 으로 아버지 그룹화하고 평균 아들 키 계산*.
for lo, hi in [(155, 160), (165, 170), (170, 175), (180, 185), (190, 195)]:
    mask = (father_height >= lo) & (father_height < hi)
    if mask.sum() == 0:
        continue
    avg_father = father_height[mask].mean()
    avg_son = son_height[mask].mean()
    print(f"[{lo}, {hi}) 의 아버지:  평균 아버지 = {avg_father:.2f}cm   평균 아들 = {avg_son:.2f}cm")

# *극단-키 큰 아버지가 *키 큰 아들 가지지만 *아들이 평균에 더 가까움*.
# *극단-키 작은 아버지가 *키 작은 아들 가지지만 *아들이 평균에 더 가까움*.
# *그 격차가 *평균 회귀*: *아버지 극단성의 노이즈 구성요소가
# 아들에게 전달 안 됨, *아들이 새 노이즈 받음*.

External links

Exercise

*인생이나 뉴스에서 *'X 가 한때 위대했고 그러고 나서 쇠퇴' 이야기 세 개 식별* (밴드, 운동선수, 친구의 스타트업, 주식). *각각에 대해 물어*: *원 '위대' 의 얼마가 신호고 얼마가 노이즈였어*? *대부분 시간, *정밀하게 분해 불가*, *근데 *질문 자체가 *(예를 들어 '그가 자만해짐') *변장한 회귀일 수 있는 원인에 쇠퇴 과대-귀속 방지*.
Hint
*'첫이 극단, 그러고 나서 정상' 모양이 *회귀 서명*. *서명 단독이 *쇠퇴의 증거가 아니야* — *오직 이전 극단이 반복 안 한 노이즈 구성요소 가졌다는 것의 증거*.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고
💛 by 똘이warm

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.