Adam — fast convergence, robust default. SGD with momentum — final accuracy 더 좋아질 때 (large-scale 학습 후반). RMSprop — RNN 에 좋다고 알려졌지만 Adam 으로도 충분. AdamW — weight decay 가 분리된 Adam, transformer fine-tune 에 표준.
learning rate 가 가장 영향력 큰 hyperparameter. Adam 의 default 1e-3 이 보통 OK 시작점. fine-tune 시 1e-5 ~ 1e-4 로 낮춰. plateau 치면 ReduceLROnPlateau callback 으로 자동 감소.