C.W.K.
Stream
Lesson 05 of 05 · published

Edge 배포 & 다중 Adapter 패턴

~20 min · edge, s-lora, multi-adapter, retraining

Level 0관찰자
0 XP0/43 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

S-LoRA: 한 베이스에 수천 adapter

S-LoRA는 같은 베이스 모델에 수천 LoRA adapter 동시 서빙 가능. 두 혁신 —

  • Unified paging: vLLM의 PagedAttention처럼 paged 메모리 시스템에서 adapter 가중치 관리.
  • Heterogeneous batching: 같은 forward pass에서 다른 adapter 쓰는 요청들 배치.

최소 오버헤드로 2,000+ 동시 adapter 처리 가능. 고객/테넌트당 파인튜닝 변형 하나일 때 옳은 선택.

Edge 배포

플랫폼포맷적합한 경우
Apple (macOS / iOS)MLX / Core MLMac 앱, iPhone 추론
Androidllama.cpp 통한 GGUF온디바이스 추론
브라우저ONNX / WebGPU웹 기반 추론, 서버 X
임베디드GGUF (강하게 양자화)IoT, 로보틱스

언제 재학습

  • 품질 저하 — 모니터링이 출력 품질 감소 보임.
  • 도메인 시프트 — 학습 이후 사용자 입력 바뀜.
  • 새 데이터 가용 — 의미 있을 만큼 신규 운영 데이터 수집.
  • 새 베이스 모델 — 더 좋은 파운데이션 모델 출시.

점진 업데이트엔 이전 체크포인트에서 학습. 메이저 업데이트나 새 베이스 모델엔 새로 시작.

Code

Multi-adapter retrieval at request time·python
# Server (S-LoRA-style; vLLM 0.6+ supports many adapters)
# python -m vllm.entrypoints.openai.api_server \
#     --model meta-llama/Llama-3.1-8B-Instruct \
#     --enable-lora \
#     --max-loras 64 \
#     --max-lora-rank 32 \
#     --lora-modules \
#         tenant-acme=./adapters/acme \
#         tenant-globex=./adapters/globex \
#         tenant-stark=./adapters/stark \
#         (... up to max-loras ...)

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="none")

def chat_for_tenant(tenant_id: str, user_msg: str) -> str:
    r = client.chat.completions.create(
        model=f"tenant-{tenant_id}",   # routes to that tenant's adapter
        messages=[{"role": "user", "content": user_msg}],
        temperature=0.7,
    )
    return r.choices[0].message.content

External links

Exercise

스택의 파인튜닝 모델 하나에 대한 배포 계획 스케치: 어떤 서빙 프레임워크(Ollama / vLLM / TGI), 단일 또는 다중 adapter, API surface 어떤 모습, 어떤 5개 메트릭 모니터, 뭐가 재학습 트리거. 이게 '학습된 adapter 있음'에서 '실 사용자한테 서빙 중'으로 가는 문서.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.