GGUF와 MLX 형식

GGUF — universal local 형식

GGUF (GPT-Generated Unified Format)는 llama.cpp 프로젝트에서 나온 single-file 형식이야. .gguf 파일 하나에 weight, tokenizer, metadata가 다 들어가. Local inference de facto 표준인 이유:

CUDA (NVIDIA), ROCm/Vulkan (AMD), Metal (Apple Silicon), CPU AVX path 전부 지원.
40+ 모델 아키텍처 지원 (Llama, Qwen, Gemma, Mistral, Phi, DeepSeek 등).
Open 모델 대부분 공개 하루 안에 community GGUF 나와.
Ollama 내부도 모델을 GGUF blob으로 저장해.

MLX — Apple native 형식

MLX는 Apple의 머신러닝 framework. 모델은 safetensors 파일들 + config.json 디렉토리로 저장돼. Quantization은 fine group quantization 사용 — 64 weight마다 scale/bias 하나 공유 — kernel은 Apple GPU 전용으로 작성됨.

Apple Silicon 전용 (NVIDIA/AMD path 없음).
HuggingFace의 mlx-community org에 사전 변환 모델 3,000+ 개.
Apple 하드웨어에서는 decode throughput 우위; GGUF가 prefill latency 우위.
Ollama v0.19+부터 Apple Silicon에서 MLX 백엔드 사용 (preview) — 사용자 입장에선 형식 선택 의미가 작아짐.

다른 형식들

Safetensors — full-precision weight를 위한 HuggingFace 표준. Inference engine이 safetensors → GGUF / MLX로 변환해서 local 사용.
GGML — GGUF 전신. 2026에 GGML 파일 받지 마, deprecated.
ONNX — cross-framework runtime 형식. Classical ML에선 흔하고, LLM local-inference 세계에선 잘 안 보여.

Code

이미 받아둔 GGUF 들여다보기·bash

# Ollama는 GGUF blob을 ~/.ollama/models 아래 저장
ls ~/.ollama/models/blobs/ | head

# 설치된 모델 metadata 보기 (architecture, quantization, template)
ollama show qwen2.5:7b
ollama show qwen2.5:7b --modelfile

MLX 형식 모델 직접 실행·bash

# mlx-lm으로 mlx-community HF org의 MLX-format 모델 실행
pip install -U mlx mlx-lm
mlx_lm.generate \
  --model mlx-community/Qwen2.5-7B-Instruct-4bit \
  --prompt "Explain GGUF in 3 sentences."

GGUF — universal local 형식

MLX — Apple native 형식

다른 형식들

Code

External links

Exercise

Progress

댓글 0