Chain Rule: 도함수가 합성되는 법

AI 에 가장 중요한 미분학 규칙

ML 에선 함수가 거의 절대 isolated 안 옴. 대부분 합성: $f (g (x))$ 한 함수가 다른 함수에 feed. $f (g (x))$ 미분에 chain rule 필요:

$\frac{d}{d x} f (g (x)) = f^{'} (g (x)) \cdot g^{'} (x)$

한국어로: "외부 함수의 도함수 (내부에서 평가) 곱하기 내부 함수의 도함수." 곱셈, 덧셈 X. 함수 nesting 시 기울기가 multiplicatively 합성.

왜 backprop 의 backbone

신경망 = 함수의 거대한 합성: 입력 → linear layer → 활성 → linear layer → 활성 → ... → loss. 첫 layer 의 weight 에 대한 loss 변화 계산하려면 사이 모든 layer 가로질러 도함수 chain. Chain rule = 이게 가능하게 하는 bookkeeping.

역전파 (다음 트랙) = 그저 chain rule 을 layer 하나씩 체계적으로 적용, forward pass 중 중간값 캐시.

빠른 예시

$\frac{d}{d x} sin (x^{2}) = cos (x^{2}) \cdot 2 x$
$\frac{d}{d x} e^{3 x} = e^{3 x} \cdot 3$
$\frac{d}{d x} lo g (σ (x)) = \frac{1}{σ ( x )} \cdot σ^{'} (x)$ , sigmoid 의 $σ^{'} (x) = σ (x) (1 - σ (x))$ .

Chain rule = 도함수가 합성 가로질러 곱해. 100 layer stack = 입력 gradient 가 100 국소 도함수의 곱. 이래서 깊은 망이 vanishing/exploding gradient — ReLU, batch norm, residual connection 발명 이유.

import torch x = torch.tensor(2.0, requires_grad=True) # y = sin(x^2) — 합성 y = torch.sin(x ** 2) y.backward() # Chain rule: dy/dx = cos(x^2) * 2x = cos(4) * 4 ≈ -2.614 print(x.grad.item()) # -2.614...

Chain Rule: 도함수가 합성되는 법

AI 에 가장 중요한 미분학 규칙

왜 backprop 의 backbone

빠른 예시

Code

External links

Exercise

Progress

댓글 0