LoRA 가 하는 일
거대한 모든 가중치 행렬 W 업데이트 대신, LoRA 가 low-rank delta ΔW = B A 학습 — B 는 d×r, A 는 r×k, 작은 r (보통 8-64). 원본 W frozen; B 와 A 만 학습. 학습 가능 파라미터 100-1000x 감소. 인퍼런스: W' = W + B A, 런타임 적용 또는 W 에 merge.
LoRA 가 이기는 이유
- 학습 가능 params: 풀 fine-tune 의 0.1-1%.
- VRAM: 7B LoRA 학습이 단일 24GB GPU fit; 풀 fine-tune 은 8x A100 필요.
- Composability: 인퍼런스에 LoRA adapter swap 가능 (요청별 다른 스타일) — base 모델 재로드 X.
- Storage: 7B 모델의 LoRA adapter ~50MB. 풀 fine-tune 은 14GB.
하이퍼파라미터
r(rank) — capacity. 매우 작은 adaptation 8, 디폴트 16, 어려운 task 32-64.lora_alpha— scaling factor. Effective LR scaling =alpha / r. 흔함:alpha = 2*r.target_modules— 어떤 레이어 adapt. attention 엔q_proj, k_proj, v_proj, o_proj; MLP 엔gate_proj, up_proj, down_proj."all-linear"가 모델의 모든 Linear 타겟.lora_dropout— 보통 0.05-0.1.