C.W.K.
Stream
Lesson 06 of 11 · published

Mistral 계열 — 효율적인 유럽 open weight

~10 min · mistral, mixtral, moe

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

전 Meta/Google 연구자가 창업한 Mistral AI가 효율적 open-weight 모델에 집중. 계보는 짧지만 영향력 있어.

모델총 paramsactive params아키텍처컨텍스트
Mistral 7B (2023)7B7BDense + sliding-window attention32K
Mixtral 8×7B (2024)47B13BMoE, 8개 expert 중 top-232K
Mixtral 8×22B (2024)141B39BMoE, 8개 expert 중 top-264K
Mistral Small 3 (24B)24B24BDense32K
Mistral Large 3 (2024)~675B~41BMoE
Mistral Small 4 (2025)119B6BMoE, expert 128개 top-4256K

Mixtral 8×22B 상세: 56 layer, d_model=6144, 48 Q head + 8 KV head (GQA), SwiGLU, RoPE, 다국어 (영어, 프랑스어, 이탈리아어, 독일어, 스페인어), Apache 2.0 라이선스. 특히 8×22B와 Mistral Small 4가 공격적 MoE(낮은 active / 높은 total)이 훨씬 큰 dense 모델 매치할 수 있음을 보여줬어.

Code

Inspect Mixtral 8×22B's MoE config·python
from transformers import AutoConfig
cfg = AutoConfig.from_pretrained("mistralai/Mixtral-8x22B-v0.1")
print("num_experts:", cfg.num_local_experts)        # 8
print("experts per token:", cfg.num_experts_per_tok) # 2
print("hidden:", cfg.hidden_size)                    # 6144
print("intermediate:", cfg.intermediate_size)        # 16384
print("num_q_heads:", cfg.num_attention_heads)       # 48
print("num_kv_heads:", cfg.num_key_value_heads)      # 8 (GQA)

External links

Exercise

같은 prompt를 Mistral 7B와 Mixtral 8x7B에 돌려(예: together.ai 또는 replicate). 품질, 속도, 비용 비교. MoE의 더 큰 총 지식이 어디서 드러나나? 13B active 파라미터 수는 latency 어디서 드러나나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.