양자화 — Q4, Q5, Q8 실전 · Transformer Quest

양자화는 모델 가중치 정밀도 줄여서 메모리 절약 + 추론 가속. 모던 post-training 양자화 기법(GPTQ, AWQ, GGUF)은 놀라울 만큼 품질 손실 적어.

양자화	params당 비트	7B 모델 크기	품질 영향
FP16	16	14 GB	베이스라인
INT8 / Q8	8	7 GB	품질 손실 거의 0
Q5	5	~4.4 GB	매우 미미, chat에선 종종 감지 불가
Q4	4	3.5 GB	작은 손실(~1-3%), 대부분 용도의 sweet spot
Q3	3	~2.6 GB	감지 가능한 저하
Q2	2	~1.8 GB	주요 저하

포맷 계열

GPTQ(Frantar et al., 2022): post-training, 보정 데이터 기반, 4-bit 가중치 + FP16 활성. 서빙 표준.
AWQ(Lin et al., 2023): activation-aware weight quantization. 활성 magnitude로 두드러진 가중치 식별 + 보호. 같은 비트 폭에서 GPTQ보다 종종 살짝 품질 높음.
GGUF: llama.cpp가 쓰는 파일 포맷. 많은 양자화 스킴 지원(Q4_K_M, Q5_K_S, Q8_0 등). on-device 추론에 흔함.

대부분 production 용도엔 Q4가 옳은 출발점 — 70B 모델이 단일 고급 GPU에 들어감, 품질 손실 보통 벤치마크에서 1-3 포인트, chat에선 종종 보이지 않음. 품질이 더 중요하면 Q5 또는 INT8로 올려, 메모리가 절대 제약일 때만 Q3로 내려.

Code

Loading a quantized model·python

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Llama 3.3 70B in 4-bit via bitsandbytes
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.3-70B-Instruct",
    quantization_config={"load_in_4bit": True,
                         "bnb_4bit_compute_dtype": torch.bfloat16},
    device_map="auto",
)
# Now ~35 GB instead of ~140 GB; runs on a single 80GB GPU.

GGUF / llama.cpp on Mac (no GPU)·python

# Install llama-cpp-python, download a GGUF file (Q4_K_M is a great default)
from llama_cpp import Llama

llm = Llama(
    model_path="llama-3.3-70b-instruct.Q4_K_M.gguf",
    n_ctx=8192, n_gpu_layers=-1,
)
print(llm("Explain attention in three sentences:")["choices"][0]["text"])

양자화 — Q4, Q5, Q8 실전

포맷 계열

Code

External links

Exercise

Progress

댓글 0