C.W.K.
Stream
Lesson 01 of 04 · published

Ollama 너머 — engine map

~18 min · serving, engines

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

Ollama 너머 의미 있는 네 engine

Engine강점언제 잡아?
llama.cpp serverRaw GGUF 실행; portable C/C++; 낮은 overheadEmbedded, edge, 커스텀 빌드, flag 다 컨트롤할 때
vLLMThroughput; continuous batching; PagedAttention다중 사용자 serving; 높은 QPS; sharded 다중 GPU
TGI (HF Text Generation Inference)HuggingFace-native; production 모양HF 모델 registry; sharded 다중 GPU; HF telemetry
LM StudioGUI; 내장 OpenAI-compat server탐색, 모델 비교, 데모

공통점

네 engine 다 어떤 path에 (보통 /v1/chat/completions) OpenAI-compatible chat completion endpoint 노출. 다 streaming 지원. 차이는 운영적: throughput 모델, 하드웨어 target, 인체공학. 모델 자체 (weight)는 다 portable.

Ollama 떠나야 해?

대부분 프로젝트엔 안 그래도 돼. Ollama가 가장 낮은 setup 비용으로 local serving needs ~90% 커버. llama.cpp server는 Ollama가 안 ship하는 특정 GGUF 필요할 때; vLLM은 다중 동시 사용자 serving할 때; TGI는 팀이 이미 HuggingFace ecosystem에 살 때.

Code

Engine별 quick smoke test·bash
# Ollama (default)
curl -s http://localhost:11434/api/version

# llama.cpp server (8080에 띄웠다고 가정)
curl -s http://localhost:8080/v1/models | python3 -m json.tool

# vLLM (default port 8000)
curl -s http://localhost:8000/v1/models | python3 -m json.tool

# TGI (default port 8080)
curl -s http://localhost:8080/info | python3 -m json.tool

# 어디든 OpenAI client drop-in
python3 - <<'PY'
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
print(client.models.list())
PY

External links

Exercise

진짜 가진 모양에 맞는 alternative engine 하나 골라. 모델 하나로 띄워. OpenAI Python SDK를 그 engine의 OpenAI-compat endpoint에 가리켜서 hit. 한 질문 답을 Ollama 답이랑 비교. 답 어디서 갈리는지 메모 — 그 차이가 의미 있는지 결정.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.