C.W.K.
Stream
Lesson 01 of 06 · published

Learning Rate & 스케줄링

~20 min · learning-rate, scheduler, cosine, warmup

Level 0관찰자
0 XP0/43 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

가장 중요한 단일 hyperparameter

Learning rate가 업데이트마다 가중치 얼마나 바뀌는지 컨트롤. 너무 높으면 → 불안정, loss 스파이크. 너무 낮으면 → 느린 수렴 또는 막힘.

메서드범위괜찮은 시작점
Full 파인튜닝1e-6 ~ 5e-52e-5
LoRA / QLoRA1e-5 ~ 5e-42e-4
OpenAI managed0.1~10 (multiplier)"auto" (~1.0)

스케줄링 — 상수 LR 절대 X

  • Cosine — cosine 곡선 따라 점진 감소. 파인튜닝에 가장 인기.
  • Linear — peak에서 0으로 선형 감소.
  • Warmup — 작게 시작, 첫 N% step 동안 peak으로 ramp, 그 다음 decay.

표준 레시피: cosine 스케줄 + 10% warmup ratio. 거의 모든 파인튜닝 프로젝트에 잘 작동.

Code

Cosine schedule with warmup·python
from trl import SFTConfig

args = SFTConfig(
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,           # warm up over first 10% of total steps
    # OR: warmup_steps=100,    # exactly 100 warmup steps
)

External links

Exercise

같은 데이터셋에 짧은 LoRA 학습 런 둘: LR=2e-4 + cosine+warmup, LR=2e-5(full FT 기본값). Loss 곡선 비교. 2e-5 LoRA 런은 훨씬 느리게 학습해야 함. LR 차이가 얼마나 극적인지 내재화.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.