Qwen, Mistral, Phi — 다른 dense 패밀리들

Qwen — 가장 넓은 tier 커버리지

Alibaba 의 Qwen 패밀리는 모든 open-weight 시리즈 중 가장 broad 한 dense 파라미터 커버리지. Qwen2.5 는 0.5B 부터 72B 까지 7 dense tier ship, 152K vocabulary. Qwen3 (2025) 는 0.6B, 1.7B, 4B, 8B, 14B, 32B dense variant 로 refine — 결정적으로 모두 단일 checkpoint 에서 dual-mode operation 지원. 같은 weights 가 fast mode (no thinking) 또는 thinking mode (extended CoT) 로 돌아. 한 모델, 두 inference behavior.

Mistral — efficiency-first dense

Mistral AI 는 "작지만 punchy" dense 모델로 명성 쌓음. Mistral 7B (2023) 가 production LLM 에서 sliding-window attention 개척, Gemma 의 interleaving 보다 1년 앞서. Mistral NeMo 12B (2024, NVIDIA 와) 는 40 layer, 5120 hidden dim, Tekken tokenizer 사용 — resource-constrained 배포에 강한 선택. Mistral Large 2 (123B) 는 비-미국 lab 의 가장 capable 한 dense closed-weight 중 하나.

Phi — 사이즈가 아니라 데이터에서 quality

Microsoft 의 Phi 라인 (Phi-3, Phi-4) 은 완전히 다른 lever 추구: training data quality 에 극도의 주의. Phi-4 (14B, MIT-license) 가 careful 한 synthetic-data 큐레이션이 작은 모델을 자기 weight class 한참 위로 punching 하게 만들 수 있음을 시연. "scale 이 다 풀어" 의 반례로 유용 — 가끔 데이터 축이 파라미터 수 축보다 더 중요.

다른 주목할 dense 패밀리

Cohere Command A (111B): enterprise-focused dense, agentic tool use 강함.
Falcon 3: TII 의 efficient dense architecture 계속 작업.
InternLM, Yi: 중국 lab dense 패밀리, 자체 specialization.

네 축을 통해 dense 패밀리 읽기

주어진 size 에서 Qwen, Mistral, Phi 사이 차이 대부분은 axis 2 (post-training data 와 레시피) 와 axis 4 (배포 자세, license) 에 살아, axis 1 아냐. Backbone 들 놀랍게 비슷 — 거의 다 decoder-only with GQA, RoPE, SwiGLU. Personality 는 다른 데 살아.

Code

Qwen3 dense 라인업 with dual-mode flag·python

qwen3_dense = [
    ("Qwen3 0.6B",  0.6),
    ("Qwen3 1.7B",  1.7),
    ("Qwen3 4B",    4),
    ("Qwen3 8B",    8),
    ("Qwen3 14B",   14),
    ("Qwen3 32B",   32),
]

# Same checkpoint, two inference modes.
def chat_qwen3(prompt, *, thinking=False):
    return generate(prompt, enable_thinking=thinking)

Qwen, Mistral, Phi — 다른 dense 패밀리들

Qwen — 가장 넓은 tier 커버리지

Mistral — efficiency-first dense

Phi — 사이즈가 아니라 데이터에서 quality

다른 주목할 dense 패밀리

네 축을 통해 dense 패밀리 읽기

Code

External links

Exercise

Progress

댓글 0