Ollama 너머 — engine map

Ollama 너머 의미 있는 네 engine

Engine	강점	언제 잡아?
llama.cpp server	Raw GGUF 실행; portable C/C++; 낮은 overhead	Embedded, edge, 커스텀 빌드, flag 다 컨트롤할 때
vLLM	Throughput; continuous batching; PagedAttention	다중 사용자 serving; 높은 QPS; sharded 다중 GPU
TGI (HF Text Generation Inference)	HuggingFace-native; production 모양	HF 모델 registry; sharded 다중 GPU; HF telemetry
LM Studio	GUI; 내장 OpenAI-compat server	탐색, 모델 비교, 데모

공통점

네 engine 다 어떤 path에 (보통 /v1/chat/completions) OpenAI-compatible chat completion endpoint 노출. 다 streaming 지원. 차이는 운영적: throughput 모델, 하드웨어 target, 인체공학. 모델 자체 (weight)는 다 portable.

Ollama 떠나야 해?

대부분 프로젝트엔 안 그래도 돼. Ollama가 가장 낮은 setup 비용으로 local serving needs ~90% 커버. llama.cpp server는 Ollama가 안 ship하는 특정 GGUF 필요할 때; vLLM은 다중 동시 사용자 serving할 때; TGI는 팀이 이미 HuggingFace ecosystem에 살 때.

Code

Engine별 quick smoke test·bash

# Ollama (default)
curl -s http://localhost:11434/api/version

# llama.cpp server (8080에 띄웠다고 가정)
curl -s http://localhost:8080/v1/models | python3 -m json.tool

# vLLM (default port 8000)
curl -s http://localhost:8000/v1/models | python3 -m json.tool

# TGI (default port 8080)
curl -s http://localhost:8080/info | python3 -m json.tool

# 어디든 OpenAI client drop-in
python3 - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
print(client.models.list())
PY

Ollama 너머 — engine map

Ollama 너머 의미 있는 네 engine

공통점

Ollama 떠나야 해?

Code

External links

Exercise

Progress

댓글 0