가장 중요한 단일 hyperparameter
Learning rate가 업데이트마다 가중치 얼마나 바뀌는지 컨트롤. 너무 높으면 → 불안정, loss 스파이크. 너무 낮으면 → 느린 수렴 또는 막힘.
| 메서드 | 범위 | 괜찮은 시작점 |
|---|---|---|
| Full 파인튜닝 | 1e-6 ~ 5e-5 | 2e-5 |
| LoRA / QLoRA | 1e-5 ~ 5e-4 | 2e-4 |
| OpenAI managed | 0.1~10 (multiplier) | "auto" (~1.0) |
스케줄링 — 상수 LR 절대 X
- Cosine — cosine 곡선 따라 점진 감소. 파인튜닝에 가장 인기.
- Linear — peak에서 0으로 선형 감소.
- Warmup — 작게 시작, 첫 N% step 동안 peak으로 ramp, 그 다음 decay.
표준 레시피: cosine 스케줄 + 10% warmup ratio. 거의 모든 파인튜닝 프로젝트에 잘 작동.