Mistral 계열 — 효율적인 유럽 open weight

~10 min · mistral, mixtral, moe

Level 0Token

0 XP0/94 lessons0/10 achievements

0/120 XP to next level120 XP to go0% complete

전 Meta/Google 연구자가 창업한 Mistral AI가 효율적 open-weight 모델에 집중. 계보는 짧지만 영향력 있어.

모델	총 params	active params	아키텍처	컨텍스트
Mistral 7B (2023)	7B	7B	Dense + sliding-window attention	32K
Mixtral 8×7B (2024)	47B	13B	MoE, 8개 expert 중 top-2	32K
Mixtral 8×22B (2024)	141B	39B	MoE, 8개 expert 중 top-2	64K
Mistral Small 3 (24B)	24B	24B	Dense	32K
Mistral Large 3 (2024)	~675B	~41B	MoE	—
Mistral Small 4 (2025)	119B	6B	MoE, expert 128개 top-4	256K

Mixtral 8×22B 상세: 56 layer, d_model=6144, 48 Q head + 8 KV head (GQA), SwiGLU, RoPE, 다국어 (영어, 프랑스어, 이탈리아어, 독일어, 스페인어), Apache 2.0 라이선스. 특히 8×22B와 Mistral Small 4가 공격적 MoE(낮은 active / 높은 total)이 훨씬 큰 dense 모델 매치할 수 있음을 보여줬어.

Code

Inspect Mixtral 8×22B's MoE config·python

from transformers import AutoConfig
cfg = AutoConfig.from_pretrained("mistralai/Mixtral-8x22B-v0.1")
print("num_experts:", cfg.num_local_experts)        # 8
print("experts per token:", cfg.num_experts_per_tok) # 2
print("hidden:", cfg.hidden_size)                    # 6144
print("intermediate:", cfg.intermediate_size)        # 16384
print("num_q_heads:", cfg.num_attention_heads)       # 48
print("num_kv_heads:", cfg.num_key_value_heads)      # 8 (GQA)

External links

Exercise

같은 prompt를 Mistral 7B와 Mixtral 8x7B에 돌려(예: together.ai 또는 replicate). 품질, 속도, 비용 비교. MoE의 더 큰 총 지식이 어디서 드러나나? 13B active 파라미터 수는 latency 어디서 드러나나?

Progress

Progress is local-only — sign in to sync across devices.

← PreviousLlama 계보 — open weight 프론티어 Next →Gemini 계열 — 구글의 multimodal-first

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.