Backprop 이 답하는 질문
Forward pass 했어. Loss 얻음. 이제 알아야 함: "이 망의 각 weight — 수십억 개일 수 — 살짝 까딱이면 loss 어떻게 변해?" 그 숫자들이 gradient. 있으면 gradient descent 가 모든 weight 갱신해 loss 줄임.
Naive 하게는 한 번에 하나씩 weight perturbation 으로 각 gradient 따로 계산. 그건 weight 에 추가 forward pass. 수십억 weight 면 영원.
Backprop 의 트릭
역전파 가 사실상 한 번의 추가 망 통과 — 거꾸로 — 로 모든 gradient 계산. 뒤의 수학 = chain rule (Calculus 트랙). 엔지니어링 = forward pass 중 중간값 캐시, 거꾸로 걸으며 국소 Jacobian 곱.
Layer 의 각 weight 에 대해:
도함수의 chain. Backprop 이 각각 한 번 계산, 모든 weight 가로질러 재사용.
책임-게임 비유
Backprop 을 책임 분산 으로 생각. Loss 가 "이만큼 빗나감." Backprop 이 망 가로질러 거꾸로, 각 layer 한테 묻기: "miss 에 얼마나 기여?" 각 layer 가 weight × 위에서 흐르는 gradient 비례로 답. 그러고 (chain) 책임을 뒤 layer 로 전달.
끝까지 가면 모든 weight 가 자기 오차 share 알아. 각 weight 를 share 반대로 조정 = 다음 forward pass 가 과녁에 더 가까이.