Deep 의 숨은 비용
Chain rule 따라 100-layer 망의 입력 gradient = 100 국소 도함수의 곱. 그 도함수들이 시스템적으로 1 보다 작으면 (sigmoid 의 max 도함수 0.25 처럼), 곱이 빨리 줄어: . Gradient 가 사실상 0 — 망이 초기 layer 전혀 학습 안 함. Vanishing gradient 문제.
반대도 일어남: 국소 도함수가 1 보다 크면 곱이 폭발. Exploding gradient 가 학습 destabilize, 가끔 NaN.
해결책
- sigmoid/tanh 대신 ReLU — 도함수 = 1 (양수 입력) 대신 분수. Chain 곱 안 줄임.
- Residual 연결 (ResNet) — 입력 다시 더해, gradient 가 skip path 통해 layer 우회 흐름.
- Batch normalization — 활성을 sane 범위 유지, 도함수 drift X.
- Gradient clipping — gradient norm 을 임계값 cap, 폭발 방지.
- 더 나은 초기화 (Xavier, He) — 즉시 vanish/explode 안 일으키는 weight 시작.
왜 deep net 이 수십 년 작동 안 함. Sigmoid, tanh 활성이 초기 신경망 지배; 도함수가 0.25, 1 로 bounded. 많은 layer stack = gradient vanish. 2012 ImageNet 혁명이 새 아이디어가 아니라 — ReLU, GPU compute, 더 큰 데이터가 마침내 depth 가 보상받게.
트랙 보상
이제 AI 에 등장하는 방식으로 미분학 읽음: 도함수 = 학습에 어디로 갈지 말하는 기울기; 적분 = 가끔; chain rule = 모든 신경망의 척추. Vanishing/exploding gradient = chain rule 이 무는 거. 다음: backprop, 이 모두의 규율 적용.