C.W.K.
Stream
Lesson 02 of 12 · published

파라미터 수 직관 — 1B에서 1T까지

~8 min · params, intuition

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

"70억 파라미터"는 추상적 숫자. 각 스케일이 무엇을 의미하는지 — 능력, 하드웨어, 비용 — 직관 쌓기는 실제 스킬이야.

크기예시능력 tier하드웨어
1-3BPhi-3-mini, Llama 3.2 1B/3B, Gemma 3 1B기본 task, 모바일 친화단일 GPU, 스마트폰
7-8BLlama 3 8B, Mistral 7B, Qwen 2.5-7B견고한 일반 능력단일 16GB+ GPU
13-14BPhi-4, Gemma 3 12B강한 추론, 좁은 task에선 프론티어급에 가까움단일 24GB+ GPU
27-32BGemma 3 27B, Qwen 2.5-32B대부분 task에서 프론티어 품질 접근1-2 GPU
65-70BLlama 3.3 70B프론티어 품질 dense 모델FP16 2-4 GPU, INT4 1 GPU
200-400B denseLlama 3.1 405B최상위 품질cluster (8+ GPU)
MoE 100-700B 총Mixtral 8×22B, DeepSeek-V3, Llama 4최상위 품질, active ~20-40B4-8 GPU (양자화 따라)

핵심: sweet spot이 시간 따라 이동. 2023년엔 70B dense가 합리적 비용에 품질의 sweet spot. 2026년엔 active 파라미터 17-40B인 MoE 모델이 종종 70B dense를 품질에서 매치/초과하면서 더 싸게 서빙. 이 곡선의 옳은 지점 고르기가 배포 결정의 절반.

Code

Memory cost rule of thumb·python
def model_memory_gb(n_params_billions, dtype="bf16"):
    bytes_per_param = {
        "fp32": 4,
        "fp16": 2, "bf16": 2,
        "int8": 1,
        "int4": 0.5,
    }[dtype]
    return n_params_billions * bytes_per_param

for size in [3, 7, 14, 32, 70, 405]:
    line = f"{size:>3}B  "
    for dtype in ["fp16", "int8", "int4"]:
        line += f"{dtype}: {model_memory_gb(size, dtype):>5.1f} GB   "
    print(line)
# 70B in INT4 fits on a single 80GB GPU (35 GB weights + KV cache + overhead).

External links

Exercise

본인이 만들었거나 배포한 feature에 대해, 품질 bar 충족하는 가장 작은 모델 식별. 크기 증가하는 후보 셋 나열, 평가 셋에 다 돌려, bar 넘는 가장 작은 거 골라. 종종 3-5배 비용 절감.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.