Linear map 의 composition 도 linear
Layer 1 이 y = W₁ x + b₁ 이고 layer 2 가 z = W₂ y + b₂ 면, z = W₂ W₁ x + (W₂ b₁ + b₂) — 그 자체로 x 의 single linear function. Linear layer 10 개 쌓으면 1 개와 정확히 같은 expressive power 야. 그래서 pure linear depth 는 낭비야 — single matrix 가 계산할 수 있는 걸 10 배 parameter 로 계산한 셈.
해결은 non-linearity. 모든 linear layer 쌍 사이에 non-linear activation (ReLU, GELU, tanh) 끼우면 composition 이 더 이상 linear 가 아냐. 이제 depth 가 의미를 가져 — 각 layer 가 input space 를 region 으로 자르고 흥미롭게 합쳐.
XOR canonical 예시
XOR 은 single linear classifier 가 못 푸는 가장 작은 함수. Input 2 개, output 1 개, unit square 의 4 모서리: (0,0)→0, (0,1)→1, (1,0)→1, (1,1)→0. 1 들을 한 쪽, 0 들을 다른 쪽에 두는 직선이 없어. ReLU unit 2 개의 hidden layer 추가하면 trivially 풀려.
이게 depth 에 대해 말해주는 것
Depth 는 magic 이 아냐. Activation 이 spendable 하게 만드는 representational complexity budget 이야. 초기 layer 가 만드는 representation (edge, character n-gram) 이 mid-level 개념 (texture, syllable) 으로 합쳐지고, 그게 high-level 개념 (object, word) 으로 합쳐져. Activation 빼면 composition 이 collapse.