vLLM이 하는 거
vLLM은 continuous batching이랑 PagedAttention 중심으로 만들어졌어. 핵심: 동시 request 많을 때 vLLM이 batch로 packing해서 GPU compute랑 메모리 request 간에 공유 — single-request engine보다 dramatically 높은 throughput.
vLLM 잡을 때
- 내부 API serving하는데 같은 모델에 사용자 여러 명 hit.
- 천 단위 prompt에 batch job.
- 다중 GPU NVIDIA 하드웨어 가지고 카드 간 sharded inference.
Mac 단일 사용자면 vLLM은 overkill. Ollama가 깔끔.
잃는 거
- Apple Silicon 지원 부분적. vLLM은 NVIDIA-first. 일부 path가 Mac에서 동작 (CPU-only, 느림)하는데 production에선 절대 Mac에 vLLM 안 잡아.
- 더 무거운 setup. Python deps, CUDA 버전, 모델 path — Ollama보다 knob 더 많음.
- 다른 메모리 모델. vLLM이 contiguous KV-cache pool을 미리 할당. Trade-off는 빠른 scheduling인데 대신 사이즈 잘 잡아야 함.