3 escalating commitment
Frozen feature extractor — backbone frozen, new head 만 train. 싸고, 빠르고, small dataset 에 자주 surprisingly competitive. 항상 첫 시도.
Partial fine-tuning — head + 마지막 몇 layer unfreeze, early layer freeze. Small data 의 capacity 와 overfitting risk 사이 compromise.
Full fine-tuning — 모든 parameter train. 가장 높은 accuracy ceiling, 가장 높은 compute 비용, 가장 큰 overfitting risk. From-scratch training 보다 훨씬 낮은 learning rate (1e-5 또는 1e-6) 사용.
Discriminative learning rate trick
New head (random 시작, update 더 필요) 에 더 높은 learning rate, pretrained backbone (이미 좋고 큰 update 가 손상) 에 더 낮은 learning rate. 흔한 비율: 10x ~ 100x.
Fine-tuning 이 해칠 때
Small dataset + full fine-tune = overfitting paradise. Pretrained backbone 100M+ parameter, dataset 1000 example — model 이 10 epoch 만에 외우고 test set 에서 degrade. Frozen 머무르거나, 강한 augmentation 쓰거나, gradually escalate.