vLLM (실서비스 기본값)
vLLM은 high-throughput LLM 서빙 standby. 두 핵심 혁신 —
- PagedAttention: OS가 가상 메모리 page하듯 KV-cache 메모리 관리. 단편화 제거, 동시 capacity 극적 증가.
- Continuous batching: 여러 요청을 같은 forward pass에서 처리, slot 비면 packing. 순진한 sequential 서빙 대비 엄청난 throughput 이득.
vLLM은 OpenAI 호환 API를 기본으로 말해서 어떤 OpenAI SDK 클라이언트든 코드 변경 없이 가리킬 수 있어.
vLLM + LoRA — merge 불필요
vLLM은 베이스 모델 위에 LoRA adapter 직접 서빙하고 요청별 hot-swap 가능. 같은 베이스에 여러 파인튜닝 변형 서빙(멀티테넌트, 고객별 특화)할 때 옳은 셋업.
TGI (Text Generation Inference)
Hugging Face 자체 추론 서버. Hub 긴밀 통합에 특히 좋아. 일반적으로 vLLM이랑 비슷한 throughput, 약간 다른 사용감.