"두꺼운 꼬리 데이터에서의 σ-기반 진술은 *fantasy 세계에 대한 수학적으로 valid 한 산수*야."
렌즈에 도메인이 있어
*σ 렌즈가 종 곡선 가정이 성립하는 곳*에서 *아름답게 작동*. *성립 안 하는 곳에서는 나쁘게 — 종종 호도하게 — 작동*. *'성립 안 하는 곳' 의 리스트가 세상의 *결과를 좌우하는 데이터 대부분*: 금융 수익률, 소셜 미디어 바이럴리티, 웹 파일 크기, 스트레스 받은 시스템 응답 시간, 자산 분포, 네트워크 트래픽, 지진 규모.
이들 각각에 대해 *σ 를 계산하고 '이게 3σ 사건' 이라고 인용하는 건 기술적으로 valid 한 산술 동작*. *해석 '0.13% 시간에 일어남' 은 *데이터에 안 맞는 정규분포에서 빌려온 fantasy*. *산수는 괜찮음; 결론이 틀림*.
불일치가 어떻게 숨는가
*두꺼운 꼬리 분포의 중심이 종종 종 모양으로 보임*. *평온한 해의 일일 주식 수익률 히스토그램이 대략 정규처럼 보임*. *거기서 계산된 σ 가 잘 정의됨*. *그 σ 로 계산된 95% 구간이 대부분 날짜 커버*. *모든 게 괜찮아 보임* — *위기일이 도착할 때까지*, 그 시점에 *'희귀' 사건이 발생*하고, *다음 날 또 도착*, *그 다음 날 또*. *σ 렌즈는 두꺼운 꼬리 분포의 평온한 중간에서 샘플링된 것*; *못 본 꼬리에 대해 할 말 없음*.
*이게 실패 모드를 음흉하게 만드는 것*. *σ 렌즈가 조용한 데이터에서 *0 개 적색 신호*를 보고*. *오직 가장 중요할 때만 실패*: *꼬리에서, 결과를 좌우하는 사건이 사는 곳에서, 그리고 *보정이 현실에서 가장 떨어진 곳*에서*.
시민의 두-질문 테스트
*어떤 새 데이터셋에든 σ 렌즈 적용 전에*:
- 기저 과정이 뭐야? *데이터 포인트가 많은 작은 독립적 기여의 합* (CLT 적용, σ 렌즈 아마 작동) 인가, *한 요인이 지배할 수 있는 과정의 결과* (CLT 안 적용, σ 렌즈 아마 호도) 인가?
- 꼬리를 봤어? *두꺼운 꼬리 데이터의 평온한 샘플은 정규처럼 보임*. *그 위에 보정된 렌즈는 꼬리 사건이 도착할 때 거짓말함*. *σ 가정을 스트레스-테스트*: *내일 5σ 사건이 일어나면, 진짜로 350만 분의 1 우연이라고 생각할 거야, 아니면 모델을 의심할 거야*?