핵심 아이디어
LoRA(Low-Rank Adaptation, Hu et al. 2021)가 실무에서 가장 중요한 단일 PEFT 기법. 풀 가중치 행렬 W(d×d) 업데이트 대신 LoRA는 업데이트를 작은 행렬 둘로 분해 —
W' = W + BA
W는 원래 freeze된 가중치 행렬 (d × d)B는 작은 행렬 (d × r)A는 작은 행렬 (r × d)r은 rank — 보통 8, 16, 32, 64
d=4096, r=16인 행렬에 대해 —
- 풀 업데이트: 4096 × 4096 = 1670만 파라미터
- LoRA 업데이트: (4096 × 16) + (16 × 4096) = 13.1만 파라미터 — 128배 감소
작동 이유
핵심 가설: 파인튜닝 중 가중치 업데이트는 낮은 intrinsic rank 가져. 모델을 새 작업에 적응시키는 데 필요한 변화가 가중치 공간의 모든 차원을 수정할 필요 없어 — 훨씬 낮은 차원 subspace에서 잡혀.
초기화
행렬 A는 random Gaussian, B는 0으로 초기화. 그래서 학습 시작 시 BA = 0, 모델은 사전학습된 거랑 동일. 학습이 점진적으로 옳은 업데이트 배워.