왜 llama.cpp server?
llama.cpp가 기반 C/C++ inference engine. Ollama가 내부에서 이거 사용. llama-server (llama.cpp 트리에서 빌드)가 같은 engine을 standalone HTTP server로 노출 — full OpenAI-compatible chat completion + llama.cpp 전용 endpoint들 포함.
직접 잡을 때
- Ollama가 ship 안 하는 특정 GGUF가 있고 Modelfile + repository 만들기 싫을 때.
- Flag 레벨 컨트롤 필요 — 정확한
num_ctx, batch size, GPU split, mmap 설정, KV cache type. - Engine을 자체 product에 embed하고 싶고 binary 하나, daemon 없음, 모델 registry 없음 원할 때.
- 다른 port에 여러 variant 돌리고 싶을 때 — 모델 하나당 server 하나, 공유 state 없음.
빌드, serve, hit
llama.cpp는 CMake 한 번으로 빌드. Server binary는 llama-server. 어떤 GGUF 파일이든 가리키면 고른 port에서 listen, OpenAI-compat endpoint default로 live.