C.W.K.
Stream
Lesson 04 of 05 · published

Qwen, Mistral, Phi — 다른 dense 패밀리들

~10 min · dense, qwen, mistral, phi, families

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

Qwen — 가장 넓은 tier 커버리지

Alibaba 의 Qwen 패밀리는 모든 open-weight 시리즈 중 가장 broad 한 dense 파라미터 커버리지. Qwen2.5 는 0.5B 부터 72B 까지 7 dense tier ship, 152K vocabulary. Qwen3 (2025) 는 0.6B, 1.7B, 4B, 8B, 14B, 32B dense variant 로 refine — 결정적으로 모두 단일 checkpoint 에서 dual-mode operation 지원. 같은 weights 가 fast mode (no thinking) 또는 thinking mode (extended CoT) 로 돌아. 한 모델, 두 inference behavior.

Mistral — efficiency-first dense

Mistral AI 는 "작지만 punchy" dense 모델로 명성 쌓음. Mistral 7B (2023) 가 production LLM 에서 sliding-window attention 개척, Gemma 의 interleaving 보다 1년 앞서. Mistral NeMo 12B (2024, NVIDIA 와) 는 40 layer, 5120 hidden dim, Tekken tokenizer 사용 — resource-constrained 배포에 강한 선택. Mistral Large 2 (123B) 는 비-미국 lab 의 가장 capable 한 dense closed-weight 중 하나.

Phi — 사이즈가 아니라 데이터에서 quality

Microsoft 의 Phi 라인 (Phi-3, Phi-4) 은 완전히 다른 lever 추구: training data quality 에 극도의 주의. Phi-4 (14B, MIT-license) 가 careful 한 synthetic-data 큐레이션이 작은 모델을 자기 weight class 한참 위로 punching 하게 만들 수 있음을 시연. "scale 이 다 풀어" 의 반례로 유용 — 가끔 데이터 축이 파라미터 수 축보다 더 중요.

다른 주목할 dense 패밀리

  • Cohere Command A (111B): enterprise-focused dense, agentic tool use 강함.
  • Falcon 3: TII 의 efficient dense architecture 계속 작업.
  • InternLM, Yi: 중국 lab dense 패밀리, 자체 specialization.

네 축을 통해 dense 패밀리 읽기

주어진 size 에서 Qwen, Mistral, Phi 사이 차이 대부분은 axis 2 (post-training data 와 레시피) 와 axis 4 (배포 자세, license) 에 살아, axis 1 아냐. Backbone 들 놀랍게 비슷 — 거의 다 decoder-only with GQA, RoPE, SwiGLU. Personality 는 다른 데 살아.

Code

Qwen3 dense 라인업 with dual-mode flag·python
qwen3_dense = [
    ("Qwen3 0.6B",  0.6),
    ("Qwen3 1.7B",  1.7),
    ("Qwen3 4B",    4),
    ("Qwen3 8B",    8),
    ("Qwen3 14B",   14),
    ("Qwen3 32B",   32),
]

# Same checkpoint, two inference modes.
def chat_qwen3(prompt, *, thinking=False):
    return generate(prompt, enable_thinking=thinking)

External links

Exercise

7–14B class dense 모델 세 가족에서 하나씩 골라 (Llama, Qwen, Mistral, Phi, Gemma 중 셋). 각 model card 의 'training data' 섹션 읽어. Training-data 철학에 substantive 한 차이 하나 적어. 비슷한 size 에서 모델 행동으로 새 나오는 post-training 축이야.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.