배포 파이프라인
- LoRA adapter를 베이스 모델에 merge.
- 배포 포맷(GGUF, GPTQ, AWQ)으로 변환.
- 타겟 하드웨어용으로 양자화.
- 선택한 플랫폼(Ollama, vLLM, TGI)으로 서빙.
왜 merge?
Merged 모델은 PEFT 런타임 오버헤드 0이고 베이스 모델이랑 byte-동일 모양. 어떤 서빙 프레임워크든 직접 사용 — 추론 시 PEFT 의존성 X. 단일 adapter 실서비스 배포엔 merge가 옳은 선택.
~18 min · merge, export, deployment-pipeline
Merged 모델은 PEFT 런타임 오버헤드 0이고 베이스 모델이랑 byte-동일 모양. 어떤 서빙 프레임워크든 직접 사용 — 추론 시 PEFT 의존성 X. 단일 adapter 실서비스 배포엔 merge가 옳은 선택.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
# Step 1: load base in full precision (so merge math is accurate)
base = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-3.1-8B-Instruct",
torch_dtype=torch.float16,
device_map="auto",
)
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
# Step 2: load LoRA adapter on top
model = PeftModel.from_pretrained(base, "./my-lora-adapter")
# Step 3: merge — adapters fold into base; PeftModel wrapper goes away
merged = model.merge_and_unload()
# Step 4: save the merged model
merged.save_pretrained("./merged-model")
tok.save_pretrained("./merged-model")
print("Merged model ready for vLLM / TGI / Ollama serving.")아직 댓글이 없어요. 첫 댓글을 남겨보세요.