vLLM 의 명성
vLLM 의 명성은 PagedAttention: KV cache 가 OS 메모리 페이지처럼 fixed-size 블록 저장, sequence 별 block table. 결과 거의 zero KV-cache fragmentation — 같은 GPU 에 naive 엔진보다 훨씬 많은 동시 요청 fit.
한 단락의 continuous batching
Naive batching: 요청 N 개 모아 같이 돌려 응답 N 개. 가장 느린 요청이 모두 stall. Continuous batching: 매 디코딩 step 엔진이 끝난 sequence swap out, queued sequence pull in. token 50 의 sequence A 가 token 1 의 sequence B 와 step 공유 가능. 버스트 트래픽 throughput 5-10x.
vLLM 실행 방법 둘
- OpenAI 호환 서버:
vllm serve {model_id}— OpenAI 클라이언트 drop-in. - Python 라이브러리: 오프라인 batch 작업엔
LLM+SamplingParams.