Quantization Tradeoff

Quantization이 사주는 거

Quantization은 모델 weight를 더 적은 bit로 압축해. 정밀도 깎아서 capacity 사는 건 consumer 하드웨어에 모델 맞추는 가장 효과적인 한 가지 lever야. 7B 모델 FP32에서 28 GB 필요한데, Q4로 가면 ~4 GB에 들어가고 토큰당 stream할 메모리 적어서 눈에 띄게 빨라져.

실전에서 쓰는 quant 사다리

형식	Bits	7B 크기	품질	언제 선택
FP16 / BF16	16	~14 GB	거의 손실 없음	Eval 환경, fine-tuning 준비
Q8_0	8	~7 GB	거의 무손실	여유 있는 final-answer 머신
Q6_K	~6	~5.5 GB	밸런스 좋음	품질 우선 daily driver
Q5_K_M	~5	~4.8 GB	수용 가능	빡빡한 머신에 큰 모델
Q4_K_M	~4	~4 GB	Sweet spot	기본 daily driver
IQ4_XS	~4	~3.6 GB	Q4_0보다 똑똑함	한 단계 더 줄여야 할 때
Q3_K_M	~3	~3 GB	눈에 띄는 손실	들어가게 만드는 마지막 수단
Q2_K	~2	~2 GB	큰 손실	데모/호기심 용도만

K-quant vs I-quant

K-quants (Q4_K_M, Q5_K_S 등) — tensor를 block 단위로 나누고 block마다 자기 scale/bias 줘. 같은 평균 bit-width에서 uniform Q4_0보다 좋아.
I-quants (IQ4_XS, IQ3_XXS 등) — calibration 데이터로 importance matrix 만들어서 진짜 중요한 weight에 bit를 더 써. 비슷한 품질에 파일 더 작은데, 하드웨어에 따라 decode가 좀 느려.

운영 heuristic

목표 context 윈도우 가지고 15% 여유 남는 가장 큰 quant 골라. Consumer 하드웨어 시작점은 Q4_K_M, 들어가면 Q5/Q6/Q8로 올리고, 그래도 안 들어가면 IQ4_XS나 Q3_K_M으로만 내려.

Code

Quant 두 개 빠르게 비교·bash

# 같은 모델 두 quant pull해서 동일한 prompt에 시간 재기
ollama pull qwen2.5:7b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q8_0

for q in q4_K_M q8_0; do
  echo "=== $q ==="
  time ollama run "qwen2.5:7b-instruct-$q" "Summarize the GGUF format in 5 bullets." </dev/null
done

# 답변 품질 나란히 비교; ollama ps로 메모리 차이 확인

Quantization이 사주는 거

실전에서 쓰는 quant 사다리

K-quant vs I-quant

운영 heuristic

Code

External links

Exercise

Progress

댓글 0