C.W.K.
Stream
Lesson 03 of 05 · published

Quantization Tradeoff

~22 min · quantization, gguf

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

Quantization이 사주는 거

Quantization은 모델 weight를 더 적은 bit로 압축해. 정밀도 깎아서 capacity 사는 건 consumer 하드웨어에 모델 맞추는 가장 효과적인 한 가지 lever야. 7B 모델 FP32에서 28 GB 필요한데, Q4로 가면 ~4 GB에 들어가고 토큰당 stream할 메모리 적어서 눈에 띄게 빨라져.

실전에서 쓰는 quant 사다리

형식Bits7B 크기품질언제 선택
FP16 / BF1616~14 GB거의 손실 없음Eval 환경, fine-tuning 준비
Q8_08~7 GB거의 무손실여유 있는 final-answer 머신
Q6_K~6~5.5 GB밸런스 좋음품질 우선 daily driver
Q5_K_M~5~4.8 GB수용 가능빡빡한 머신에 큰 모델
Q4_K_M~4~4 GBSweet spot기본 daily driver
IQ4_XS~4~3.6 GBQ4_0보다 똑똑함한 단계 더 줄여야 할 때
Q3_K_M~3~3 GB눈에 띄는 손실들어가게 만드는 마지막 수단
Q2_K~2~2 GB큰 손실데모/호기심 용도만

K-quant vs I-quant

  • K-quants (Q4_K_M, Q5_K_S 등) — tensor를 block 단위로 나누고 block마다 자기 scale/bias 줘. 같은 평균 bit-width에서 uniform Q4_0보다 좋아.
  • I-quants (IQ4_XS, IQ3_XXS 등) — calibration 데이터로 importance matrix 만들어서 진짜 중요한 weight에 bit를 더 써. 비슷한 품질에 파일 더 작은데, 하드웨어에 따라 decode가 좀 느려.

운영 heuristic

목표 context 윈도우 가지고 15% 여유 남는 가장 큰 quant 골라. Consumer 하드웨어 시작점은 Q4_K_M, 들어가면 Q5/Q6/Q8로 올리고, 그래도 안 들어가면 IQ4_XS나 Q3_K_M으로만 내려.

Code

Quant 두 개 빠르게 비교·bash
# 같은 모델 두 quant pull해서 동일한 prompt에 시간 재기
ollama pull qwen2.5:7b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q8_0

for q in q4_K_M q8_0; do
  echo "=== $q ==="
  time ollama run "qwen2.5:7b-instruct-$q" "Summarize the GGUF format in 5 bullets." </dev/null
done

# 답변 품질 나란히 비교; ollama ps로 메모리 차이 확인

External links

Exercise

같은 모델을 Q4_K_M과 Q8_0 두 quant로 pull해. 동일한 prompt를 두 모델에 돌리고, 응답 시간 재고, 답변 품질에서 뭐 느꼈는지 세 문장으로 써. ollama ps로 메모리 차이도 메모해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.