C.W.K.
Stream
Lesson 06 of 06 · published

MoE 오해와 그 너머 읽기

~9 min · moe, literacy, misconceptions

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

Misconception 1 — "MoE 는 항상 더 싸"

토큰당 compute 더 싸, 응. 호스팅 더 싸, 아니. Total 파라미터 풀이 메모리에 살아야. 메모리가 bottleneck 인 워크로드 (single-GPU local, long batched generation, extreme context) 면 MoE 가 dense 보다 total cost 더 나쁘게 만드는 경우 흔해.

Misconception 2 — "각 expert 가 토픽 specialize"

Tempting 하지만 false. Mixtral 과 Switch Transformer research 가 expert specialization 이 거의 토큰-level / syntactic scale 에 살아 — punctuation, 특정 morpheme, 언어-쌍 패턴 — 토픽 ("science expert", "literature expert") 아님 보여줌. Headline interpretability 그림이 사람들 바라는 것보다 더 평범.

Misconception 3 — "MoE pricing 은 active 기반이어야"

Provider 는 active FLOPs 만 보지 않고 total 서빙 비용 (메모리 + 활용도 + load-balancing 오버헤드) 기반 가격. 671B-A37B 모델은 37B 모델 가격 안 됨; "large MoE" tier 가격. Provider pricing 페이지 literal 하게 읽어.

Misconception 4 — "MoE 가 미래, dense 가 과거"

2026년에도 둘 다 활발히 발전. Dense 가 여전히 ~30B 이하, fine-tunable, locally-deployable, debuggable 워크로드에 정답. MoE 가 frontier capacity 에 affordable 서빙 cost 로 정답. 어느 것도 다른 것 대체 안 해.

Misconception 5 — "Top-K 높을수록 좋아"

K 높음 = 토큰당 더 많은 expert 발화 = 더 expressive routing 결정 + 더 많은 compute. Tradeoff knob, quality knob 아님. Switch Transformer top-1 작동. DeepSeek top-8 작동. Right K 는 N, 모델 scale, training regime, 서빙 target 에 따라.

읽기 룰

MoE claim 보면 물어: "이건 compute 축인가, 메모리 축인가, 둘 다인가?" 대부분 마케팅이 collapse. 대부분 architectural reality 가 분리.

External links

Exercise

최근 MoE 모델 발표 (Llama 4, Qwen3, DeepSeek) 찾아. 'active 파라미터' 와 'effective model size' 를 conflate 하는 진술 적어도 하나 찾아. 그 진술 두 개로 분리하면서 다시 써 — 발표가 collapse 해서 얻은 것과 reader 가 잃은 것은?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.