한 문장의 weight decay
Weight decay 는 매 step 에 parameter 를 0 쪽으로 nudge, 어떤 weight 도 dominate 못 하게 하고 부드러운 implicit regularizer 작용. AdamW 에서는 별도 decoupled step (parameter 에서 직접 λw 빼기). SGD 에서는 loss 에 L2 penalty 추가와 mathematically identical.
Default 값: transformer 에 weight_decay=0.01, from-scratch vision CNN 에 weight_decay=1e-4. 10 배 factor 로 tune. Bias 와 LayerNorm parameter 가 아닌 weight matrix 에만 적용.
Early stopping 올바르게
Epoch 마다 validation loss 추적. Val loss 가 새 low 찍을 때마다 model 저장. patience epoch 동안 val loss 개선 없으면 training stop. 저장된 best checkpoint 가 ship 할 거.
흔한 값: 짧은 training 에 patience=10, 긴 training 에 patience=50. Noisy 0.0001 개선이 patience counter reset 안 하게 min_delta 추가.
Interaction
Weight decay 와 early stopping 은 실전에서 거의 equivalent regularizer — 둘 다 model 이 noise 외우는 거 막아. 둘 다 써, 근데 linearly compose 안 한다고 기대하지 마. 강한 augmentation 있으면 둘 다 덜 가능.