C.W.K.
Stream
Lesson 04 of 05 · published

세 개의 lens — Dense, MoE, Reasoning

~10 min · overview, lenses, framework

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

Taxonomy 가 아니라 primary lens 셋

이 퀘스트의 나머지는 현대 LLM 풍경을 보는 세 개의 primary lens 를 써. 상호배타적인 카테고리가 *아니야* — DeepSeek-R1 은 MoE *이면서* reasoning-oriented 야. 독립적인 차원이야, RGB 컬러 채널처럼.

Lens 1 — Dense

모든 토큰이 모든 파라미터 활성화. 잘 이해된 baseline. Llama, Gemma, Qwen dense, Mistral, Phi-4. Fine-tune 쉽고, 서빙 쉽고, 디버깅 쉽고, 지구상 모든 inference engine 이 잘 지원해. 100–400B 정도에서 토큰당 FLOP cost 가 험해지면서 천장 침.

Lens 2 — Mixture of Experts

레이어마다 작은 expert FFN 여러 개, 토큰당 몇 개만 발화. Mixtral, DeepSeek-V2/V3/R1, Llama 4, Qwen3 MoE, Gemma 4 MoE, Mistral Large 3. 메모리와 서빙 복잡도를 비용으로 quality 천장이 더 높아. Frontier scale 가 affordable 해지는 길.

Lens 3 — Reasoning-oriented

답하기 전에 생각하느라 inference compute 를 더 써. o-series, Claude extended thinking, Gemini thinking modes, DeepSeek-R1, Qwen3 thinking mode. 거의 항상 dense 나 MoE backbone 위에 얹혀 — reasoning 은 post-training 과 inference 축에 살지, wiring 에 살지 않아.

어떻게 결합돼

CombinationExampleBehavior
Dense + standardLlama 3.3 70B예측 가능, 빠름, 저렴, 대화 baseline
Dense + reasoningQwen3 32B (thinking on)같은 checkpoint, 더 높은 latency, 어려운 task 에 훨씬 좋음
MoE + standardDeepSeek-V3Frontier-scale 지식을 ~30B inference cost 로
MoE + reasoningDeepSeek-R1현재 frontier paradigm. Capacity + careful thinking.

Code

네 조합이 다 같은 코드 경로에 살아·python
def call_model(model, prompt, *, thinking=False):
    # Backbone (dense vs MoE) decides cost shape and engine config.
    # The thinking flag toggles inference strategy without touching weights.
    return model.generate(prompt, extended_thinking=thinking)

External links

Exercise

실제로 써본 LLM 다섯 개 적어 (free 든 paid 든). 각각 (a) backbone 이 dense 인지 MoE 인지, (b) inference 가 standard 인지 reasoning 인지 태깅. 적어도 하나는 backbone 모를 거야 — 그게 다음에 찾아볼 거야.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.