한 화면에 정리한 engine 풍경
| 도구 | 역할 | 가장 어울리는 곳 |
|---|---|---|
| Ollama | Local server (REST API + CLI) | App 통합, daily driver, fallback 경로 |
| llama.cpp | 기반 C/C++ inference engine | 커스텀 빌드, embedded, raw 컨트롤 |
| LM Studio | Local 모델용 desktop GUI | 탐색, 입문자, 모델 비교 |
| mlx-lm | MLX 위 Python API | Apple Silicon 파워유저, 커스텀 파이프라인 |
| vLLM | Throughput-최적화 batched server | 다중 사용자 serving, 높은 QPS |
| TGI (Text Generation Inference) | HuggingFace의 production server | HF-native deploy, 다중 GPU 분할 |
| HuggingFace Hub | 모델 registry | 거의 모든 open 모델이 사는 곳 |
이 quest의 기둥
Ollama가 이 quest의 척추인 이유 — 아무것도 안 깔린 상태에서 안정적인 HTTP API 뒤의 local 모델까지 가는 가장 단순한 옳은 경로니까. 뒤에서 만들 거 거의 다 — streaming, tool 사용, vision, adapter 패턴 — Ollama API 위에서 보여주고 다른 도구에 매핑하는 식이야. 뒤의 serving track에서 vLLM, llama.cpp server, TGI를 같은 아이디어의 변종으로 풀어낼 거야.
Engine과 모델 헷갈리지 마
Engine이 모델을 돌리는 거고, 모델은 weight 파일이야 (GGUF / MLX / safetensors). 같은 Qwen 2.5 7B 모델을 Ollama, llama.cpp server, LM Studio, mlx-lm 어디서나 돌릴 수 있어. 운영 모양에 맞는 engine 골라 — 모델 자체는 portable.