Edge 배포 & 다중 Adapter 패턴

S-LoRA: 한 베이스에 수천 adapter

S-LoRA는 같은 베이스 모델에 수천 LoRA adapter 동시 서빙 가능. 두 혁신 —

Unified paging: vLLM의 PagedAttention처럼 paged 메모리 시스템에서 adapter 가중치 관리.
Heterogeneous batching: 같은 forward pass에서 다른 adapter 쓰는 요청들 배치.

최소 오버헤드로 2,000+ 동시 adapter 처리 가능. 고객/테넌트당 파인튜닝 변형 하나일 때 옳은 선택.

Edge 배포

플랫폼	포맷	적합한 경우
Apple (macOS / iOS)	MLX / Core ML	Mac 앱, iPhone 추론
Android	llama.cpp 통한 GGUF	온디바이스 추론
브라우저	ONNX / WebGPU	웹 기반 추론, 서버 X
임베디드	GGUF (강하게 양자화)	IoT, 로보틱스

언제 재학습

품질 저하 — 모니터링이 출력 품질 감소 보임.
도메인 시프트 — 학습 이후 사용자 입력 바뀜.
새 데이터 가용 — 의미 있을 만큼 신규 운영 데이터 수집.
새 베이스 모델 — 더 좋은 파운데이션 모델 출시.

점진 업데이트엔 이전 체크포인트에서 학습. 메이저 업데이트나 새 베이스 모델엔 새로 시작.

Code

Multi-adapter retrieval at request time·python

# Server (S-LoRA-style; vLLM 0.6+ supports many adapters)
# python -m vllm.entrypoints.openai.api_server \
#     --model meta-llama/Llama-3.1-8B-Instruct \
#     --enable-lora \
#     --max-loras 64 \
#     --max-lora-rank 32 \
#     --lora-modules \
#         tenant-acme=./adapters/acme \
#         tenant-globex=./adapters/globex \
#         tenant-stark=./adapters/stark \
#         (... up to max-loras ...)

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="none")

def chat_for_tenant(tenant_id: str, user_msg: str) -> str:
    r = client.chat.completions.create(
        model=f"tenant-{tenant_id}",   # routes to that tenant's adapter
        messages=[{"role": "user", "content": user_msg}],
        temperature=0.7,
    )
    return r.choices[0].message.content

Exercise

스택의 파인튜닝 모델 하나에 대한 배포 계획 스케치: 어떤 서빙 프레임워크(Ollama / vLLM / TGI), 단일 또는 다중 adapter, API surface 어떤 모습, 어떤 5개 메트릭 모니터, 뭐가 재학습 트리거. 이게 '학습된 adapter 있음'에서 '실 사용자한테 서빙 중'으로 가는 문서.