왜 선형만으론 못 이김
사이에 아무것도 없이 100 linear layer stack = ... 하나의 linear layer. 선형 함수의 합성은 여전히 선형. 100-layer 순수 선형 망 = 단일 선형 회귀와 정확히 같은 표현력. 컴퓨트 낭비.
활성 함수 가 비선형 도입. 망이 현실을 유용한 모양으로 구부리게 하는 선의 kink. 없으면 곡선 X, 경계 X, 고양이 vs 강아지 이해 X.
활성 zoo
| 활성 | 공식 | 언제 사용 |
|---|---|---|
| ReLU | 모던 deep net 기본. 싸고 양수 입력에 안 vanish. | |
| Sigmoid | 이진 분류 출력 layer. (0, 1) 로 압축 — 확률로 해석. | |
| Tanh | (-1, 1) 로 압축. 옛 RNN 에 사용. | |
| Softmax | 다중클래스 분류 출력 layer. 확률 분포로 압축. | |
| GeLU / SiLU | smooth ReLU 변형 | 모던 Transformer, LLM. |
왜 ReLU 가 점령
Sigmoid 의 max 도함수 = 0.25. 많이 stack 하면 gradient vanish (Calculus 트랙에서 봄). ReLU 의 도함수 = 양수 입력에 1 — gradient 안 변하고 흐름. 더하기 그저 max(0, x), 하드웨어에 쌈. 2012 딥러닝 부활 = 대체로 "ReLU + GPU + ImageNet."
활성이 선형 stack 을 universal 함수 근사기로 만듦. ReLU = 모던 default; 다른 거 = 특정 이유 있을 때만.