AI 에 가장 중요한 미분학 규칙
ML 에선 함수가 거의 절대 isolated 안 옴. 대부분 합성: 한 함수가 다른 함수에 feed. 미분에 chain rule 필요:
한국어로: "외부 함수의 도함수 (내부에서 평가) 곱하기 내부 함수의 도함수." 곱셈, 덧셈 X. 함수 nesting 시 기울기가 multiplicatively 합성.
왜 backprop 의 backbone
신경망 = 함수의 거대한 합성: 입력 → linear layer → 활성 → linear layer → 활성 → ... → loss. 첫 layer 의 weight 에 대한 loss 변화 계산하려면 사이 모든 layer 가로질러 도함수 chain. Chain rule = 이게 가능하게 하는 bookkeeping.
역전파 (다음 트랙) = 그저 chain rule 을 layer 하나씩 체계적으로 적용, forward pass 중 중간값 캐시.
빠른 예시
- , sigmoid 의 .
Chain rule = 도함수가 합성 가로질러 곱해. 100 layer stack = 입력 gradient 가 100 국소 도함수의 곱. 이래서 깊은 망이 vanishing/exploding gradient — ReLU, batch norm, residual connection 발명 이유.