실제로 필요한 세 optimizer
- SGD (with momentum) — 고전. 싼 메모리, 잘 이해됨, 적절한 lr scheduling 으로 vision task 에서 Adam 과 동등하거나 이김. CIFAR / ImageNet replication 의 default.
- Adam — first/second gradient moment 의 running estimate 통한 per-parameter adaptive lr. task 잘 모를 때 좋은 default.
- AdamW — decoupled weight decay 의 Adam. Transformer, fine-tune, 대부분 non-vision deep learning 의 실제 modern 표준. 2026 paper 의 'Adam' 은 거의 항상 AdamW.
왜 AdamW, Adam 아님
Adam 의 'weight_decay' 인자가 gradient 에 항 추가했었음. AdamW 가 weight decay 를 gradient update 후 적용 — parameter 의 L2 regularization 과 수학적 등가, 경험적으로 더 나은 행동. modern training setup 에 AdamW 선호.
Per-parameter-group 설정
optimizer 가 flat parameter list OR 각자 설정 가진 parameter group list 받음. 고전 사용: pretrained backbone 에 낮은 lr, 새 head 에 높은 lr. 또는: bias / LayerNorm parameter 에 weight decay 없음 (Transformer convention).