수수께끼
70B dense 와 12B active 인 70B MoE 둘 다 "70B" 인데, 같은 하드웨어에서:
- Dense 는 토큰당 cost 예측 가능 — 모든 토큰이 같은 cost.
- MoE 는 토큰당 compute 가 훨씬 작아 (12B dense 가까움), 근데 70B 전체가 VRAM 에 있어야 해.
- MoE 는 capability 천장이 잠재적으로 더 높아 — expert 가 specialize 가능.
- MoE 는 LoRA fine-tune 깔끔하게 하기 어려워 — routing 때문에 어떤 weights 가 어떤 일에 중요한지 복잡해져.
Framing rule
두 모델이 비슷한 total 파라미터 수인데 사용감이 다르면, 차이는 거의 항상 세 곳 에서 와:
- Active 파라미터 — total 같고 active 다르면 토큰당 cost 와 속도가 달라.
- Post-training 레시피 — 같은 backbone, 다른 RL 이나 SFT 면 행동이 급격히 달라.
- Inference 전략 — 같은 checkpoint, extended thinking on vs off 가 latency 와 cost 를 10배.
Worked example
"왜 Qwen3 235B-A22B 가 30B dense 만큼 snappy 한데 70B+ dense 처럼 답해?" 답: 토큰당 22B active 가 ~30B-class FLOP cost 를 주고, 235B total capacity (+ 광범위한 post-training) 가 30B-class dense 보다 더 큰 지식 surface 를 줘. 같은 "235B" 가 어느 축에 서있냐에 따라 완전히 다른 두 가지 의미.
주문
"같은 숫자, 다른 모양." 같은 파라미터 수 두 모델이 cost 나 행동이 다르면 — 어떤 축이 일하고 있는지 물어. "파라미터 수가 틀린 거" 는 절대 아니야. 항상 "파라미터 수만으로는 모델 묘사 못 해" 야.