Engine과 ecosystem

한 화면에 정리한 engine 풍경

도구	역할	가장 어울리는 곳
Ollama	Local server (REST API + CLI)	App 통합, daily driver, fallback 경로
llama.cpp	기반 C/C++ inference engine	커스텀 빌드, embedded, raw 컨트롤
LM Studio	Local 모델용 desktop GUI	탐색, 입문자, 모델 비교
mlx-lm	MLX 위 Python API	Apple Silicon 파워유저, 커스텀 파이프라인
vLLM	Throughput-최적화 batched server	다중 사용자 serving, 높은 QPS
TGI (Text Generation Inference)	HuggingFace의 production server	HF-native deploy, 다중 GPU 분할
HuggingFace Hub	모델 registry	거의 모든 open 모델이 사는 곳

이 quest의 기둥

Ollama가 이 quest의 척추인 이유 — 아무것도 안 깔린 상태에서 안정적인 HTTP API 뒤의 local 모델까지 가는 가장 단순한 옳은 경로니까. 뒤에서 만들 거 거의 다 — streaming, tool 사용, vision, adapter 패턴 — Ollama API 위에서 보여주고 다른 도구에 매핑하는 식이야. 뒤의 serving track에서 vLLM, llama.cpp server, TGI를 같은 아이디어의 변종으로 풀어낼 거야.

Engine과 모델 헷갈리지 마

Engine이 모델을 돌리는 거고, 모델은 weight 파일이야 (GGUF / MLX / safetensors). 같은 Qwen 2.5 7B 모델을 Ollama, llama.cpp server, LM Studio, mlx-lm 어디서나 돌릴 수 있어. 운영 모양에 맞는 engine 골라 — 모델 자체는 portable.

Code

같은 모델, 네 engine·bash

# 같은 Qwen 2.5 7B Instruct, 네 가지 방식:

# 1. Ollama (background daemon + REST API)
ollama pull qwen2.5:7b
curl http://localhost:11434/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"hi"}],"stream":false}'

# 2. llama.cpp server (수동 GGUF)
# (llama.cpp 빌드 후)
./llama-server -m qwen2.5-7b-instruct-q4_k_m.gguf -c 4096

# 3. LM Studio (GUI)
# UI에서 모델 고르고 "Local server" 클릭

# 4. mlx-lm (Apple Silicon, MLX 형식)
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "hi"

한 화면에 정리한 engine 풍경

이 quest의 기둥

Engine과 모델 헷갈리지 마

Code

External links

Exercise

Progress

댓글 0