LoRA를 베이스 모델에 Merge
학습 후 LoRA adapter 가중치를 베이스 모델에 다시 merge할 수 있어. Adapter 아키텍처 오버헤드 다 제거 — merged 모델은 베이스 모델이랑 모양 byte-동일이라 어떤 거든(vLLM, TGI, Ollama, llama.cpp) 서빙 가능.
한 베이스에 다중 adapter
Adapter들을 분리해 두고 같은 베이스 모델에 여러 개 로드도 가능. (큰) 베이스 모델 복제 없이 다른 작업 / 고객 서빙에 유용. vLLM이랑 TGI 둘 다 서빙 시점 요청별 adapter 스위칭 지원(Track 8).
Apple Silicon 경로
M-시리즈 Mac에서 MLX 프레임워크(mlx-lm)로 LoRA 파인튜닝 가능. Unified memory 가진 M-시리즈 칩에서 LoRA랑 QLoRA 지원. CUDA H100보다 느리지만 64GB+ unified memory 가진 머신에서 7B~13B 모델에 실용적이고, Ollama용 GGUF로 내보내는 경로 깔끔해.