Total params vs Active params — 진짜 중요한 숫자

마케팅 슬라이드의 숫자는 거의 항상 모양이 틀려

모델이 "200B 파라미터" 로 발표되면, 옛날에는 그 숫자 하나로 충분했어. Frontier 에 MoE 가 깔린 지금은 숫자가 *쌍* 으로 필요해 — total parameters (메모리에 들어가야 할 모든 것) 와 active parameters per token (토큰당 실제로 계산하는 것). 그 비율이 다음 모든 cost 결정을 좌우해.

표기법: 235B-A22B

2025–2026 MoE 표준 단축 표기는 XB-AYB — X total, Y active per token. Qwen3 235B-A22B 는 235B 메모리에 있고 토큰당 ~22B 계산. DeepSeek-V3 671B-A37B 는 671B 메모리에 있고 토큰당 ~37B 계산. 한 숫자만 ("70B") 있으면 거의 항상 dense 라서 total = active 야.

왜 이게 다 결정해

Memory: total 따라 scale. DeepSeek-V3 671B 다 GPU 에 로드해야 해, 토큰당 37B 만 발화해도. 현재 MoE 서빙으로는 우회 불가.
Token 당 FLOPs: active 따라 scale. DeepSeek-V3 는 37B dense 모델 정도의 FLOP cost 로 토큰을 뽑아. 그래서 서빙 가능한 거야.
Quality 천장: total 따라 올라가. 671B 전체 capacity 가 모델 지식에 기여해, 토큰당 37B 만 켜져도 — expert 마다 다른 토큰에서 켜지니까.

Mental model: 책상이 아니라 도서관

Dense 는 책상 같아 — 책상 위 모든 종이가 모든 질문에 손 닿는 거리. MoE 는 도서관 같아 — 책 대부분 책장에 있고, 질문마다 몇 권만 책상에 가져와. 도서관 전체는 여전히 건물에 들어가야 해.

Code

실제 모델 세 개의 total vs active·python

# Dense: total == active (every token activates everything)
llama_3_70b = {"total_B": 70, "active_B": 70}

# Mixtral 8x7B (early MoE, top-2 routing over 8 experts)
mixtral_8x7b = {"total_B": 46.7, "active_B": 12.9}

# DeepSeek-V3 (large MoE, top-8 over 256 experts + 1 shared)
deepseek_v3 = {"total_B": 671, "active_B": 37}

# Cost shapes
for name, m in [("L70B", llama_3_70b),
                ("Mixtral", mixtral_8x7b),
                ("V3", deepseek_v3)]:
    print(name, "memory ~", m["total_B"], "B  | FLOPs/tok ~", m["active_B"], "B")

빠른 룰: serving cost 추정·python

# Memory needed (rough, BF16):
#   bytes ~= total_B * 1e9 * 2

# FLOPs per token (rough, prefill or decode):
#   flops_per_tok ~= 2 * active_B * 1e9

# Tokens/sec for a given hardware FLOP/s budget:
#   tps ~= hardware_flops / (2 * active_B * 1e9)

Exercise

회사의 비기술 PM 한테 "왜 670B 파라미터 모델이 70B 모델보다 토큰당 서빙 비용이 더 쌀 수 있는지" 한 단락으로 설명문 써봐. 'MoE' 나 'expert' 단어 쓰지 말고. 평이한 말로 설명을 내재화하는 게 포인트야 — 깔끔하게 못 말하면 아직 이해 못 한 거야.