Ollama 너머 의미 있는 네 engine
| Engine | 강점 | 언제 잡아? |
|---|---|---|
| llama.cpp server | Raw GGUF 실행; portable C/C++; 낮은 overhead | Embedded, edge, 커스텀 빌드, flag 다 컨트롤할 때 |
| vLLM | Throughput; continuous batching; PagedAttention | 다중 사용자 serving; 높은 QPS; sharded 다중 GPU |
| TGI (HF Text Generation Inference) | HuggingFace-native; production 모양 | HF 모델 registry; sharded 다중 GPU; HF telemetry |
| LM Studio | GUI; 내장 OpenAI-compat server | 탐색, 모델 비교, 데모 |
공통점
네 engine 다 어떤 path에 (보통 /v1/chat/completions) OpenAI-compatible chat completion endpoint 노출. 다 streaming 지원. 차이는 운영적: throughput 모델, 하드웨어 target, 인체공학. 모델 자체 (weight)는 다 portable.
Ollama 떠나야 해?
대부분 프로젝트엔 안 그래도 돼. Ollama가 가장 낮은 setup 비용으로 local serving needs ~90% 커버. llama.cpp server는 Ollama가 안 ship하는 특정 GGUF 필요할 때; vLLM은 다중 동시 사용자 serving할 때; TGI는 팀이 이미 HuggingFace ecosystem에 살 때.