모두 합치기
이제 세 lens — dense, MoE, reasoning — 와 네 축 — backbone, training, inference, product — 가져. 조합이 무한 아닌데 list 로 기억하기 너무 많아. 이 lesson 이 master 결정 표: production 에서 실제 중요한 각 차원에서 어떤 paradigm 이 이기나?
| Dimension | Dense | MoE | Reasoning-oriented |
|---|---|---|---|
| 토큰당 compute | 최고 (모든 param active) | 최저 (top-K expert 만) | 변동, thinking depth 의존 |
| Memory footprint | = total params | = ALL params (≫ active) | = base model + thinking 토큰 KV |
| Latency (요청당) | 예측 가능 | 더 낮은 compute 지만 routing 오버헤드 | 높고 변동 (5–20× standard) |
| Serving 복잡도 | 단순 — standard tensor parallelism | 복잡 — expert parallelism, balancing | 중간 — 긴 sequence, budget 제어 |
| Fine-tuning | 쉬움 (mature LoRA ecosystem) | 어려움 (routing 이 adaptation 복잡) | 매우 어려움 (RL pipeline, reward model) |
| Local 배포 | 최고 (llama.cpp, Ollama) | 도전 (거대한 total memory) | OK base 들면, 그냥 더 느림 |
| 토큰당 cost (API) | Size 비례 | FLOP 당 더 낮음, 메모리 amortization | Thinking 토큰 때문에 훨씬 높음 |
| 어려운 reasoning quality | Scale 에서 좋음 | 좋음 (training 의존) | 어려운 문제에 탁월 |
| 단순 Q&A quality | 탁월 (싸고 빠름) | 탁월 (싸고 빠름) | 낭비 — 단순 질문 overthink |
내재화할 큰 패턴 둘
패턴 1. Dense 와 MoE 가 backbone 축에서 경쟁 (토큰당 cost vs 메모리당 cost). Reasoning 이 직교 — 어느 쪽 위에든 layer 가능. 그래서 "MoE vs reasoning" 이 malformed comparison; 진짜 비교는 "MoE vs dense" 와 "reasoning on vs off".
패턴 2. 위 표의 각 행이 실제 production 제약에 매핑. Bottleneck 이 메모리면 MoE 가 더 나쁘게; bottleneck 이 compute 면 MoE 도움; bottleneck 이 serving simplicity 면 dense 이김; bottleneck 이 hard-task 정확도면 reasoning 도움; bottleneck 이 latency 면 reasoning 해.