마케팅 슬라이드의 숫자는 거의 항상 모양이 틀려
모델이 "200B 파라미터" 로 발표되면, 옛날에는 그 숫자 하나로 충분했어. Frontier 에 MoE 가 깔린 지금은 숫자가 *쌍* 으로 필요해 — total parameters (메모리에 들어가야 할 모든 것) 와 active parameters per token (토큰당 실제로 계산하는 것). 그 비율이 다음 모든 cost 결정을 좌우해.
표기법: 235B-A22B
2025–2026 MoE 표준 단축 표기는 XB-AYB — X total, Y active per token. Qwen3 235B-A22B 는 235B 메모리에 있고 토큰당 ~22B 계산. DeepSeek-V3 671B-A37B 는 671B 메모리에 있고 토큰당 ~37B 계산. 한 숫자만 ("70B") 있으면 거의 항상 dense 라서 total = active 야.
왜 이게 다 결정해
- Memory: total 따라 scale. DeepSeek-V3 671B 다 GPU 에 로드해야 해, 토큰당 37B 만 발화해도. 현재 MoE 서빙으로는 우회 불가.
- Token 당 FLOPs: active 따라 scale. DeepSeek-V3 는 37B dense 모델 정도의 FLOP cost 로 토큰을 뽑아. 그래서 서빙 가능한 거야.
- Quality 천장: total 따라 올라가. 671B 전체 capacity 가 모델 지식에 기여해, 토큰당 37B 만 켜져도 — expert 마다 다른 토큰에서 켜지니까.
Mental model: 책상이 아니라 도서관
Dense 는 책상 같아 — 책상 위 모든 종이가 모든 질문에 손 닿는 거리. MoE 는 도서관 같아 — 책 대부분 책장에 있고, 질문마다 몇 권만 책상에 가져와. 도서관 전체는 여전히 건물에 들어가야 해.