파라미터 수 직관 — 1B에서 1T까지

"70억 파라미터"는 추상적 숫자. 각 스케일이 무엇을 의미하는지 — 능력, 하드웨어, 비용 — 직관 쌓기는 실제 스킬이야.

크기	예시	능력 tier	하드웨어
1-3B	Phi-3-mini, Llama 3.2 1B/3B, Gemma 3 1B	기본 task, 모바일 친화	단일 GPU, 스마트폰
7-8B	Llama 3 8B, Mistral 7B, Qwen 2.5-7B	견고한 일반 능력	단일 16GB+ GPU
13-14B	Phi-4, Gemma 3 12B	강한 추론, 좁은 task에선 프론티어급에 가까움	단일 24GB+ GPU
27-32B	Gemma 3 27B, Qwen 2.5-32B	대부분 task에서 프론티어 품질 접근	1-2 GPU
65-70B	Llama 3.3 70B	프론티어 품질 dense 모델	FP16 2-4 GPU, INT4 1 GPU
200-400B dense	Llama 3.1 405B	최상위 품질	cluster (8+ GPU)
MoE 100-700B 총	Mixtral 8×22B, DeepSeek-V3, Llama 4	최상위 품질, active ~20-40B	4-8 GPU (양자화 따라)

핵심: sweet spot이 시간 따라 이동. 2023년엔 70B dense가 합리적 비용에 품질의 sweet spot. 2026년엔 active 파라미터 17-40B인 MoE 모델이 종종 70B dense를 품질에서 매치/초과하면서 더 싸게 서빙. 이 곡선의 옳은 지점 고르기가 배포 결정의 절반.

Code

Memory cost rule of thumb·python

def model_memory_gb(n_params_billions, dtype="bf16"):
    bytes_per_param = {
        "fp32": 4,
        "fp16": 2, "bf16": 2,
        "int8": 1,
        "int4": 0.5,
    }[dtype]
    return n_params_billions * bytes_per_param

for size in [3, 7, 14, 32, 70, 405]:
    line = f"{size:>3}B  "
    for dtype in ["fp16", "int8", "int4"]:
        line += f"{dtype}: {model_memory_gb(size, dtype):>5.1f} GB   "
    print(line)
# 70B in INT4 fits on a single 80GB GPU (35 GB weights + KV cache + overhead).

파라미터 수 직관 — 1B에서 1T까지

Code

External links

Exercise

Progress

댓글 0