왜 GGUF
GGUF (이전 GGML) 가 llama.cpp 가 발명, Ollama 가 wrap 하는 포맷. 최적화 for: CPU-first 인퍼런스, Apple Silicon 의 Metal 가속, 크로스 플랫폼 binary 배포. 단일 .gguf 파일이 가중치 + tokenizer + metadata 담음, ollama pull 준비.
GGUF 생성법
Canonical path 가 llama.cpp 의 convert_hf_to_gguf.py 통해. llama.cpp clone, script 가 너 HF 레포 가리키게, 양자화 골라 (Q4_K_M, Q5_K_M, Q8_0, F16). Output: ship 가능한 .gguf 파일.
네이밍 컨벤션
커뮤니티 컨벤션으로 Hub 의 GGUF 파일이 {model}-{params}.{quant}.gguf 이름: Llama-3.1-8B-Instruct-Q4_K_M.gguf. quant tier (Q4_K_M 가 typical “balanced” 선택) 가 bit-width + rounding scheme 알려줘.