역전파: bookkeeping 하는 chain rule

Backprop 이 답하는 질문

Forward pass 했어. Loss 얻음. 이제 알아야 함: "이 망의 각 weight — 수십억 개일 수 — 살짝 까딱이면 loss 어떻게 변해?" 그 숫자들이 gradient. 있으면 gradient descent 가 모든 weight 갱신해 loss 줄임.

Naive 하게는 한 번에 하나씩 weight perturbation 으로 각 gradient 따로 계산. 그건 $N$ weight 에 $O (N)$ 추가 forward pass. 수십억 weight 면 영원.

Backprop 의 트릭

역전파 가 사실상 한 번의 추가 망 통과 — 거꾸로 — 로 모든 gradient 계산. 뒤의 수학 = chain rule (Calculus 트랙). 엔지니어링 = forward pass 중 중간값 캐시, 거꾸로 걸으며 국소 Jacobian 곱.

Layer $ℓ$ 의 각 weight $w$ 에 대해:

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial h _{L}} \cdot \frac{\partial h _{L}}{\partial h _{L - 1}} \cdot \dots \cdot \frac{\partial h _{ℓ + 1}}{\partial h _{ℓ}} \cdot \frac{\partial h _{ℓ}}{\partial w}$

도함수의 chain. Backprop 이 각각 한 번 계산, 모든 weight 가로질러 재사용.

책임-게임 비유

Backprop 을 책임 분산 으로 생각. Loss 가 "이만큼 빗나감." Backprop 이 망 가로질러 거꾸로, 각 layer 한테 묻기: "miss 에 얼마나 기여?" 각 layer 가 weight × 위에서 흐르는 gradient 비례로 답. 그러고 (chain) 책임을 뒤 layer 로 전달.

끝까지 가면 모든 weight 가 자기 오차 share 알아. 각 weight 를 share 반대로 조정 = 다음 forward pass 가 과녁에 더 가까이.

Backprop = chain rule + 동적 프로그래밍. 중간 도함수 재사용해 한 backward pass 로 모든 파라미터 gradient 계산.

Code

한 backward 호출, 모든 gradient·python

import torch

# Backprop 작동 보려고 수동 2-layer 망
x = torch.randn(1, 4)
W1 = torch.randn(4, 8, requires_grad=True)
W2 = torch.randn(8, 1, requires_grad=True)

# Forward
h = torch.relu(x @ W1)
y_hat = h @ W2
loss = (y_hat ** 2).sum()        # 데모용 임의 loss

# Backward — chain rule, 자동
loss.backward()
print(W1.grad.shape)             # torch.Size([4, 8])
print(W2.grad.shape)             # torch.Size([8, 1])
# 두 gradient 가 한 backward 호출로.

역전파: bookkeeping 하는 chain rule

Backprop 이 답하는 질문

Backprop 의 트릭

책임-게임 비유

Code

External links

Exercise

Progress

댓글 0