C.W.K.
Stream
Lesson 05 of 05 · published

Engine과 ecosystem

~20 min · ollama, llamacpp, vllm, lm-studio

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

한 화면에 정리한 engine 풍경

도구역할가장 어울리는 곳
OllamaLocal server (REST API + CLI)App 통합, daily driver, fallback 경로
llama.cpp기반 C/C++ inference engine커스텀 빌드, embedded, raw 컨트롤
LM StudioLocal 모델용 desktop GUI탐색, 입문자, 모델 비교
mlx-lmMLX 위 Python APIApple Silicon 파워유저, 커스텀 파이프라인
vLLMThroughput-최적화 batched server다중 사용자 serving, 높은 QPS
TGI (Text Generation Inference)HuggingFace의 production serverHF-native deploy, 다중 GPU 분할
HuggingFace Hub모델 registry거의 모든 open 모델이 사는 곳

이 quest의 기둥

Ollama가 이 quest의 척추인 이유 — 아무것도 안 깔린 상태에서 안정적인 HTTP API 뒤의 local 모델까지 가는 가장 단순한 옳은 경로니까. 뒤에서 만들 거 거의 다 — streaming, tool 사용, vision, adapter 패턴 — Ollama API 위에서 보여주고 다른 도구에 매핑하는 식이야. 뒤의 serving track에서 vLLM, llama.cpp server, TGI를 같은 아이디어의 변종으로 풀어낼 거야.

Engine과 모델 헷갈리지 마

Engine이 모델을 돌리는 거고, 모델은 weight 파일이야 (GGUF / MLX / safetensors). 같은 Qwen 2.5 7B 모델을 Ollama, llama.cpp server, LM Studio, mlx-lm 어디서나 돌릴 수 있어. 운영 모양에 맞는 engine 골라 — 모델 자체는 portable.

Code

같은 모델, 네 engine·bash
# 같은 Qwen 2.5 7B Instruct, 네 가지 방식:

# 1. Ollama (background daemon + REST API)
ollama pull qwen2.5:7b
curl http://localhost:11434/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"hi"}],"stream":false}'

# 2. llama.cpp server (수동 GGUF)
# (llama.cpp 빌드 후)
./llama-server -m qwen2.5-7b-instruct-q4_k_m.gguf -c 4096

# 3. LM Studio (GUI)
# UI에서 모델 고르고 "Local server" 클릭

# 4. mlx-lm (Apple Silicon, MLX 형식)
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "hi" 

External links

Exercise

Ollama 안 깔았으면 깔아. 그 다음 위 표의 다른 engine 중 앞으로 30일 안에 진짜 깔 이유 있는 거 list로 정리해. 한 줄씩 이유 적어. 존재한다는 이유로 깔지 말고.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.