언덕 오르기 비유
Loss 를 풍경으로 상상 — 고도 = 오차인 언덕 지형. 가장 낮은 골짜기 (최소 loss) 원함. 전체 풍경 못 보지만 발 아래 기울기는 느낌. Gradient descent = steepest descent 방향으로 한 걸음. Flat 까지 반복.
수학적: . Gradient = steepest ascent 방향; 부호 뒤집어 descent. (학습률) = step size.
세 실패 모드
- 학습률 너무 작음 → 기어가, 영원, 수렴 안 할 수.
- 학습률 너무 큼 → 골짜기 overshoot, 진동, 무한대 발산 가능.
- 나쁜 초기화 → flat 영역 (gradient ≈ 0) 또는 saddle point 시작, 안 움직임.
이래서 "학습률 튜닝" 이 실전 딥러닝의 대부분. 답이 엄청 중요하고 default 인 경우 드뭄.
만날 변형
- SGD — 미니배치의 vanilla gradient descent. 단순, 종종 놀랄 만큼 경쟁력.
- Momentum — 과거 gradient 누적해 작은 bump 통과.
- Adam — momentum + 파라미터별 학습률. 모던 학습의 default.
- 스케줄 — 빠르게 시작, 골짜기 가까워질수록 느리게. Cosine, warmup 흔함.
Gradient descent = 엔진. Loss = 지형. 학습률 = step size. ML 엔지니어링의 대부분 = 이 엔진이 특정 지형 navigate 하도록 가르치기.