왜 비슷한 파라미터 수가 다르게 느껴져

수수께끼

70B dense 와 12B active 인 70B MoE 둘 다 "70B" 인데, 같은 하드웨어에서:

Dense 는 토큰당 cost 예측 가능 — 모든 토큰이 같은 cost.
MoE 는 토큰당 compute 가 훨씬 작아 (12B dense 가까움), 근데 70B 전체가 VRAM 에 있어야 해.
MoE 는 capability 천장이 잠재적으로 더 높아 — expert 가 specialize 가능.
MoE 는 LoRA fine-tune 깔끔하게 하기 어려워 — routing 때문에 어떤 weights 가 어떤 일에 중요한지 복잡해져.

Framing rule

두 모델이 비슷한 total 파라미터 수인데 사용감이 다르면, 차이는 거의 항상 세 곳 에서 와:

Active 파라미터 — total 같고 active 다르면 토큰당 cost 와 속도가 달라.
Post-training 레시피 — 같은 backbone, 다른 RL 이나 SFT 면 행동이 급격히 달라.
Inference 전략 — 같은 checkpoint, extended thinking on vs off 가 latency 와 cost 를 10배.

Worked example

"왜 Qwen3 235B-A22B 가 30B dense 만큼 snappy 한데 70B+ dense 처럼 답해?" 답: 토큰당 22B active 가 ~30B-class FLOP cost 를 주고, 235B total capacity (+ 광범위한 post-training) 가 30B-class dense 보다 더 큰 지식 surface 를 줘. 같은 "235B" 가 어느 축에 서있냐에 따라 완전히 다른 두 가지 의미.

주문

"같은 숫자, 다른 모양." 같은 파라미터 수 두 모델이 cost 나 행동이 다르면 — 어떤 축이 일하고 있는지 물어. "파라미터 수가 틀린 거" 는 절대 아니야. 항상 "파라미터 수만으로는 모델 묘사 못 해" 야.

Code

두 70B, 두 cost shape·python

models = [
    {"name": "Llama 3 70B (dense)",    "total": 70,  "active": 70},
    {"name": "Hypothetical 70B-A12B",  "total": 70,  "active": 12},
]

for m in models:
    # Memory: similar (both ~140 GB BF16)
    mem_gb = m["total"] * 2
    # Per-token compute: very different
    rel_cost = m["active"] / 70
    print(f"{m['name']:24s}  mem ~{mem_gb} GB   rel-FLOP/tok {rel_cost:.2f}")

Exercise

일상적으로 쓰는 모델 둘 골라 — advertised 파라미터 수는 비슷한데 사용감이 다른 거 (하나는 더 싸거나, 느리거나, 똑똑하거나, 수다스럽거나). 아무것도 안 찾아보고 어떤 축이 일하고 있는지 추측 적어. 그 다음 model card 보고 맞았는지 확인.