S-LoRA: 한 베이스에 수천 adapter
S-LoRA는 같은 베이스 모델에 수천 LoRA adapter 동시 서빙 가능. 두 혁신 —
- Unified paging: vLLM의 PagedAttention처럼 paged 메모리 시스템에서 adapter 가중치 관리.
- Heterogeneous batching: 같은 forward pass에서 다른 adapter 쓰는 요청들 배치.
최소 오버헤드로 2,000+ 동시 adapter 처리 가능. 고객/테넌트당 파인튜닝 변형 하나일 때 옳은 선택.
Edge 배포
| 플랫폼 | 포맷 | 적합한 경우 |
|---|---|---|
| Apple (macOS / iOS) | MLX / Core ML | Mac 앱, iPhone 추론 |
| Android | llama.cpp 통한 GGUF | 온디바이스 추론 |
| 브라우저 | ONNX / WebGPU | 웹 기반 추론, 서버 X |
| 임베디드 | GGUF (강하게 양자화) | IoT, 로보틱스 |
언제 재학습
- 품질 저하 — 모니터링이 출력 품질 감소 보임.
- 도메인 시프트 — 학습 이후 사용자 입력 바뀜.
- 새 데이터 가용 — 의미 있을 만큼 신규 운영 데이터 수집.
- 새 베이스 모델 — 더 좋은 파운데이션 모델 출시.
점진 업데이트엔 이전 체크포인트에서 학습. 메이저 업데이트나 새 베이스 모델엔 새로 시작.