Quantization이 사주는 거
Quantization은 모델 weight를 더 적은 bit로 압축해. 정밀도 깎아서 capacity 사는 건 consumer 하드웨어에 모델 맞추는 가장 효과적인 한 가지 lever야. 7B 모델 FP32에서 28 GB 필요한데, Q4로 가면 ~4 GB에 들어가고 토큰당 stream할 메모리 적어서 눈에 띄게 빨라져.
실전에서 쓰는 quant 사다리
| 형식 | Bits | 7B 크기 | 품질 | 언제 선택 |
|---|---|---|---|---|
| FP16 / BF16 | 16 | ~14 GB | 거의 손실 없음 | Eval 환경, fine-tuning 준비 |
| Q8_0 | 8 | ~7 GB | 거의 무손실 | 여유 있는 final-answer 머신 |
| Q6_K | ~6 | ~5.5 GB | 밸런스 좋음 | 품질 우선 daily driver |
| Q5_K_M | ~5 | ~4.8 GB | 수용 가능 | 빡빡한 머신에 큰 모델 |
| Q4_K_M | ~4 | ~4 GB | Sweet spot | 기본 daily driver |
| IQ4_XS | ~4 | ~3.6 GB | Q4_0보다 똑똑함 | 한 단계 더 줄여야 할 때 |
| Q3_K_M | ~3 | ~3 GB | 눈에 띄는 손실 | 들어가게 만드는 마지막 수단 |
| Q2_K | ~2 | ~2 GB | 큰 손실 | 데모/호기심 용도만 |
K-quant vs I-quant
- K-quants (
Q4_K_M,Q5_K_S등) — tensor를 block 단위로 나누고 block마다 자기 scale/bias 줘. 같은 평균 bit-width에서 uniform Q4_0보다 좋아. - I-quants (
IQ4_XS,IQ3_XXS등) — calibration 데이터로 importance matrix 만들어서 진짜 중요한 weight에 bit를 더 써. 비슷한 품질에 파일 더 작은데, 하드웨어에 따라 decode가 좀 느려.
운영 heuristic
목표 context 윈도우 가지고 15% 여유 남는 가장 큰 quant 골라. Consumer 하드웨어 시작점은 Q4_K_M, 들어가면 Q5/Q6/Q8로 올리고, 그래도 안 들어가면 IQ4_XS나 Q3_K_M으로만 내려.