양자화는 모델 가중치 정밀도 줄여서 메모리 절약 + 추론 가속. 모던 post-training 양자화 기법(GPTQ, AWQ, GGUF)은 놀라울 만큼 품질 손실 적어.
| 양자화 | params당 비트 | 7B 모델 크기 | 품질 영향 |
|---|---|---|---|
| FP16 | 16 | 14 GB | 베이스라인 |
| INT8 / Q8 | 8 | 7 GB | 품질 손실 거의 0 |
| Q5 | 5 | ~4.4 GB | 매우 미미, chat에선 종종 감지 불가 |
| Q4 | 4 | 3.5 GB | 작은 손실(~1-3%), 대부분 용도의 sweet spot |
| Q3 | 3 | ~2.6 GB | 감지 가능한 저하 |
| Q2 | 2 | ~1.8 GB | 주요 저하 |
포맷 계열
- GPTQ(Frantar et al., 2022): post-training, 보정 데이터 기반, 4-bit 가중치 + FP16 활성. 서빙 표준.
- AWQ(Lin et al., 2023): activation-aware weight quantization. 활성 magnitude로 두드러진 가중치 식별 + 보호. 같은 비트 폭에서 GPTQ보다 종종 살짝 품질 높음.
- GGUF: llama.cpp가 쓰는 파일 포맷. 많은 양자화 스킴 지원(Q4_K_M, Q5_K_S, Q8_0 등). on-device 추론에 흔함.
대부분 production 용도엔 Q4가 옳은 출발점 — 70B 모델이 단일 고급 GPU에 들어감, 품질 손실 보통 벤치마크에서 1-3 포인트, chat에선 종종 보이지 않음. 품질이 더 중요하면 Q5 또는 INT8로 올려, 메모리가 절대 제약일 때만 Q3로 내려.