사람들 놀라게 하는 숫자
DeepSeek-V3 는 671B total, ~37B active per token. 그 비율 (~5.5%) 은 토큰당 compute 가 671B dense 모델의 약 5.5% 라는 뜻. 근데 필요한 memory 는 671B dense 의 100%. 671B 다 로드해야 해 — 다 다른 weights 가지고 다음 토큰에 어떤 게 발화할지 몰라.
왜 메모리가 active 따라갈 수 없어
Router 결정은 토큰당 이고 input 의존. 어떤 expert 가 발화할지 미리 알 길 없어, 그래서 모든 expert 준비돼 있어야. 이건 compute 와 근본적으로 달라 — compute 는 선택된 expert 에만 발생. Memory 는 "닿을 수 있는 것", compute 는 "닿은 것". MoE 는 두 번째를 줄이지만 첫 번째는 안 줄여.
Serving cost 모양
MoE 모델에 대해:
- VRAM cost ∝ total parameters. Total 사이즈에 맞는 fleet 필요.
- 토큰당 FLOP cost ∝ active parameters. 같은 total 의 dense 모델보다 FLOP 당 더 많은 토큰/초 서빙 가능.
- Throughput 이 batch composition 에 의존. Batch 의 많은 토큰이 같은 expert 원하면 expert-level GPU 과부하; 토큰들 expert 사이 분산되면 parallelism 좋음. 그래서 MoE batch 행동이 예측 어려워.
왜 MoE 가 local 운영 더 어려워
Single 80GB H100 이 FP8 에서도 DeepSeek-V3 못 들어 (~700GB 필요). 4-bit quantize 도 ~170GB. 그래서 frontier scale MoE 는 근본적으로 multi-GPU 또는 multi-node 스토리. 같은 compute equivalence (가상의 ~37B dense) 의 dense 는 H100 한 대의 fraction 에 들어가.
Pricing 함의
API provider 는 토큰당 FLOPs 만 보지 않고 total 서빙 비용 (메모리 + 활용도) 기반으로 가격. 그래서 671B-A37B MoE 모델이 FLOPs/token 비슷하다고 70B dense 보다 5배 싸지 않아. 경제는 active 가 아니라 total 파라미터로 흐름.