LoRA: 돌파구

핵심 아이디어

LoRA(Low-Rank Adaptation, Hu et al. 2021)가 실무에서 가장 중요한 단일 PEFT 기법. 풀 가중치 행렬 W(d×d) 업데이트 대신 LoRA는 업데이트를 작은 행렬 둘로 분해 —

W' = W + BA

W는 원래 freeze된 가중치 행렬 (d × d)
B는 작은 행렬 (d × r)
A는 작은 행렬 (r × d)
r은 rank — 보통 8, 16, 32, 64

d=4096, r=16인 행렬에 대해 —

풀 업데이트: 4096 × 4096 = 1670만 파라미터
LoRA 업데이트: (4096 × 16) + (16 × 4096) = 13.1만 파라미터 — 128배 감소

작동 이유

핵심 가설: 파인튜닝 중 가중치 업데이트는 낮은 intrinsic rank 가져. 모델을 새 작업에 적응시키는 데 필요한 변화가 가중치 공간의 모든 차원을 수정할 필요 없어 — 훨씬 낮은 차원 subspace에서 잡혀.

초기화

행렬 A는 random Gaussian, B는 0으로 초기화. 그래서 학습 시작 시 BA = 0, 모델은 사전학습된 거랑 동일. 학습이 점진적으로 옳은 업데이트 배워.

Code

Wrap a base model with LoRA in PEFT·python

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM

base = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")

config = LoraConfig(
    r=16,                          # rank — higher = more capacity
    lora_alpha=32,                 # scaling factor (alpha/r)
    target_modules="all-linear",   # apply to all linear layers
    lora_dropout=0.05,             # regularization
    bias="none",                   # don't train biases
    task_type="CAUSAL_LM",
)

model = get_peft_model(base, config)
model.print_trainable_parameters()
# trainable params: 13,631,488 || all params: 8,043,651,072 || trainable%: 0.17%

핵심 아이디어

작동 이유

초기화

Code

External links

Exercise

Progress

댓글 0