목적별 포맷 constellation
| 목적 | 포맷 | 이유 |
|---|---|---|
| 작게 학습 | bnb-nf4 (QLoRA) | 학습용 디자인. NF4 가 정규 분포 가중치 fit. |
| GPU 서빙 (TGI/vLLM) | AWQ, GPTQ | Engine-aware, 빠른 인퍼런스 커널. |
| Hopper/Ada 서빙 | fp8 | Native fp8 tensor core. |
| Mac/Linux 랩탑 로컬 실행 | GGUF (Ollama / llama.cpp) | CPU + Metal + lite GPU 최적화. |
| Apple Silicon 네이티브 | MLX | Metal 가속 네이티브 커널, unified memory. |
| Edge / 모바일 | ONNX (with INT8/INT4) | Cross-runtime portability. |
멘탈 모델
양자화 포맷이 bits-per-weight, calibration scheme, 런타임 기대 인코드. 그 중 mismatch 면 모델 로드 fail 또는 느리게 실행. 항상 너 서빙 엔진이 포맷 런타임과 매치 검증: vLLM 이 AWQ/GPTQ 인지; TGI 가 둘 다 + bnb 인지; Ollama 는 GGUF 원함; MLX 는 .mlx 원함.