전 Meta/Google 연구자가 창업한 Mistral AI가 효율적 open-weight 모델에 집중. 계보는 짧지만 영향력 있어.
| 모델 | 총 params | active params | 아키텍처 | 컨텍스트 |
|---|---|---|---|---|
| Mistral 7B (2023) | 7B | 7B | Dense + sliding-window attention | 32K |
| Mixtral 8×7B (2024) | 47B | 13B | MoE, 8개 expert 중 top-2 | 32K |
| Mixtral 8×22B (2024) | 141B | 39B | MoE, 8개 expert 중 top-2 | 64K |
| Mistral Small 3 (24B) | 24B | 24B | Dense | 32K |
| Mistral Large 3 (2024) | ~675B | ~41B | MoE | — |
| Mistral Small 4 (2025) | 119B | 6B | MoE, expert 128개 top-4 | 256K |
Mixtral 8×22B 상세: 56 layer, d_model=6144, 48 Q head + 8 KV head (GQA), SwiGLU, RoPE, 다국어 (영어, 프랑스어, 이탈리아어, 독일어, 스페인어), Apache 2.0 라이선스. 특히 8×22B와 Mistral Small 4가 공격적 MoE(낮은 active / 높은 total)이 훨씬 큰 dense 모델 매치할 수 있음을 보여줬어.