MoE 오해와 그 너머 읽기

Misconception 1 — "MoE 는 항상 더 싸"

토큰당 compute 더 싸, 응. 호스팅 더 싸, 아니. Total 파라미터 풀이 메모리에 살아야. 메모리가 bottleneck 인 워크로드 (single-GPU local, long batched generation, extreme context) 면 MoE 가 dense 보다 total cost 더 나쁘게 만드는 경우 흔해.

Misconception 2 — "각 expert 가 토픽 specialize"

Tempting 하지만 false. Mixtral 과 Switch Transformer research 가 expert specialization 이 거의 토큰-level / syntactic scale 에 살아 — punctuation, 특정 morpheme, 언어-쌍 패턴 — 토픽 ("science expert", "literature expert") 아님 보여줌. Headline interpretability 그림이 사람들 바라는 것보다 더 평범.

Misconception 3 — "MoE pricing 은 active 기반이어야"

Provider 는 active FLOPs 만 보지 않고 total 서빙 비용 (메모리 + 활용도 + load-balancing 오버헤드) 기반 가격. 671B-A37B 모델은 37B 모델 가격 안 됨; "large MoE" tier 가격. Provider pricing 페이지 literal 하게 읽어.

Misconception 4 — "MoE 가 미래, dense 가 과거"

2026년에도 둘 다 활발히 발전. Dense 가 여전히 ~30B 이하, fine-tunable, locally-deployable, debuggable 워크로드에 정답. MoE 가 frontier capacity 에 affordable 서빙 cost 로 정답. 어느 것도 다른 것 대체 안 해.

Misconception 5 — "Top-K 높을수록 좋아"

K 높음 = 토큰당 더 많은 expert 발화 = 더 expressive routing 결정 + 더 많은 compute. Tradeoff knob, quality knob 아님. Switch Transformer top-1 작동. DeepSeek top-8 작동. Right K 는 N, 모델 scale, training regime, 서빙 target 에 따라.

읽기 룰

MoE claim 보면 물어: "이건 compute 축인가, 메모리 축인가, 둘 다인가?" 대부분 마케팅이 collapse. 대부분 architectural reality 가 분리.

Misconception 1 — "MoE 는 항상 더 싸"

Misconception 2 — "각 expert 가 토픽 specialize"

Misconception 3 — "MoE pricing 은 active 기반이어야"

Misconception 4 — "MoE 가 미래, dense 가 과거"

Misconception 5 — "Top-K 높을수록 좋아"

읽기 룰

External links

Exercise

Progress

댓글 0