Weight가 실제로 움직이는 방식
Optimizer는 gradient를 받아서 weight 업데이트하는 방법을 결정해. 선택과 하이퍼파라미터가 training 속도와 최종 품질에 크게 영향.
| Optimizer | 적합한 곳 | 비고 |
|---|---|---|
| SGD + momentum | 대규모 vision, LR 튜닝 가능할 때 | 제대로 튜닝하면 최고 final accuracy 자주 달성 |
| Adam | 일반 default, NLP, 초기 실험 | 견고, 빠른 수렴, 튜닝된 SGD 대비 살짝 낮은 peak |
| AdamW | Transformer, 대형 model | decoupled weight decay — 더 깔끔한 regularization |
| RMSprop | RNN, non-stationary objective | Adam 등장 전 옛날 default |
Learning rate schedule은 거의 항상 도움 돼. 클래식 패턴: 처음 몇 epoch는 warmup (0에서 base_lr까지 선형), 그 후 cosine decay로 0 향해. Keras 3에 CosineDecay가 옵션 warmup_steps와 함께 내장.