QLoRA: 양자화된 base 위 LoRA
Base 모델 4-bit 로 양자화 (NF4 specifically — 정규 분포 가중치 위해 디자인된 양자화 scheme), frozen 유지, 위에 LoRA adapter 학습. 결과: 단일 48GB GPU 에 70B 모델 fine-tune 가능. Base 4-bit; 작은 adapter (fp16/bf16) 만 학습.
구성
BitsAndBytesConfig— 4-bit quant scheme 선언.prepare_model_for_kbit_training— base freeze, grad checkpointing 활성화, 필요한 cast.LoraConfig— 이전과 같음.get_peft_model— adapter 로 모델 wrap.
PEFT 메서드 zoo
PEFT 가 LoRA 만 X. 지원 다른 메서드: IA3, LoHa, LoKr, OFT, X-LoRA, VeRA. 팀 대부분 LoRA + QLoRA 디폴트. exotic 한 거 specific axis (메모리, expressivity) 에서 이김 — 그래도 typical SFT 의 marginal 품질 차이 작음.