Qwen — 가장 넓은 tier 커버리지
Alibaba 의 Qwen 패밀리는 모든 open-weight 시리즈 중 가장 broad 한 dense 파라미터 커버리지. Qwen2.5 는 0.5B 부터 72B 까지 7 dense tier ship, 152K vocabulary. Qwen3 (2025) 는 0.6B, 1.7B, 4B, 8B, 14B, 32B dense variant 로 refine — 결정적으로 모두 단일 checkpoint 에서 dual-mode operation 지원. 같은 weights 가 fast mode (no thinking) 또는 thinking mode (extended CoT) 로 돌아. 한 모델, 두 inference behavior.
Mistral — efficiency-first dense
Mistral AI 는 "작지만 punchy" dense 모델로 명성 쌓음. Mistral 7B (2023) 가 production LLM 에서 sliding-window attention 개척, Gemma 의 interleaving 보다 1년 앞서. Mistral NeMo 12B (2024, NVIDIA 와) 는 40 layer, 5120 hidden dim, Tekken tokenizer 사용 — resource-constrained 배포에 강한 선택. Mistral Large 2 (123B) 는 비-미국 lab 의 가장 capable 한 dense closed-weight 중 하나.
Phi — 사이즈가 아니라 데이터에서 quality
Microsoft 의 Phi 라인 (Phi-3, Phi-4) 은 완전히 다른 lever 추구: training data quality 에 극도의 주의. Phi-4 (14B, MIT-license) 가 careful 한 synthetic-data 큐레이션이 작은 모델을 자기 weight class 한참 위로 punching 하게 만들 수 있음을 시연. "scale 이 다 풀어" 의 반례로 유용 — 가끔 데이터 축이 파라미터 수 축보다 더 중요.
다른 주목할 dense 패밀리
- Cohere Command A (111B): enterprise-focused dense, agentic tool use 강함.
- Falcon 3: TII 의 efficient dense architecture 계속 작업.
- InternLM, Yi: 중국 lab dense 패밀리, 자체 specialization.
네 축을 통해 dense 패밀리 읽기
주어진 size 에서 Qwen, Mistral, Phi 사이 차이 대부분은 axis 2 (post-training data 와 레시피) 와 axis 4 (배포 자세, license) 에 살아, axis 1 아냐. Backbone 들 놀랍게 비슷 — 거의 다 decoder-only with GQA, RoPE, SwiGLU. Personality 는 다른 데 살아.