양자화 포맷, 보정된 시각
| 포맷 | 비트 | 속도 | 품질 | 비고 |
|---|---|---|---|---|
fp16 / bf16 | 16 | baseline | baseline | 2026 의 unquantized "base" 의미. |
fp8 | 8 | 1.3-1.5x | ~baseline | Hopper / Ada GPU 만. fp8-aware 엔진 필요. |
bitsandbytes (8/4-bit) | 8 / 4 | 1-1.5x | ~baseline / minor | "작은 GPU 에 fit" 의 가장 빠른 path. Serving 엔 less optimal. |
GPTQ | 4 / 3 | 2x | small drop | Per-channel 양자화. Hub variant: {model}-GPTQ. |
AWQ | 4 | 2-3x | small drop | Activation-aware. 현재 가장 강한 4-bit serving 옵션. |
GGUF | 2-8 | n/a | varies | llama.cpp / Ollama 포맷. TGI / vLLM 용 X. Ops 트랙에서 다룸. |
결정 룰
모던 GPU 의 프로덕션 serve 타겟: variant 있으면 AWQ-4bit, 없으면 GPU 가 fp8 지원하면 fp8, fallback 으로 bnb-nf4. 2026 에 GPTQ 피해 — 이미 갖고 있는 게 아니면. 정확히 worse 하지 X 만 AWQ 가 잠식.