GGUF — universal local 형식
GGUF (GPT-Generated Unified Format)는 llama.cpp 프로젝트에서 나온 single-file 형식이야. .gguf 파일 하나에 weight, tokenizer, metadata가 다 들어가. Local inference de facto 표준인 이유:
- CUDA (NVIDIA), ROCm/Vulkan (AMD), Metal (Apple Silicon), CPU AVX path 전부 지원.
- 40+ 모델 아키텍처 지원 (Llama, Qwen, Gemma, Mistral, Phi, DeepSeek 등).
- Open 모델 대부분 공개 하루 안에 community GGUF 나와.
- Ollama 내부도 모델을 GGUF blob으로 저장해.
MLX — Apple native 형식
MLX는 Apple의 머신러닝 framework. 모델은 safetensors 파일들 + config.json 디렉토리로 저장돼. Quantization은 fine group quantization 사용 — 64 weight마다 scale/bias 하나 공유 — kernel은 Apple GPU 전용으로 작성됨.
- Apple Silicon 전용 (NVIDIA/AMD path 없음).
- HuggingFace의
mlx-communityorg에 사전 변환 모델 3,000+ 개. - Apple 하드웨어에서는 decode throughput 우위; GGUF가 prefill latency 우위.
- Ollama v0.19+부터 Apple Silicon에서 MLX 백엔드 사용 (preview) — 사용자 입장에선 형식 선택 의미가 작아짐.
다른 형식들
- Safetensors — full-precision weight를 위한 HuggingFace 표준. Inference engine이 safetensors → GGUF / MLX로 변환해서 local 사용.
- GGML — GGUF 전신. 2026에 GGML 파일 받지 마, deprecated.
- ONNX — cross-framework runtime 형식. Classical ML에선 흔하고, LLM local-inference 세계에선 잘 안 보여.