왜 Llama 가 비례 이상으로 중요해
Meta 의 Llama 시리즈는 모든 benchmark 에서 가장 capable 한 패밀리는 아니지만, open-weight 세계에서 가장 영향력 있는 dense backbone 이야. 2024–2026 의 fine-tuned 모델, RAG 시스템, agent stack 의 거대한 비율이 Llama derivative 위에 지어져. 그걸 분해하는 게 dense paradigm 을 이론이 아니라 practice 로 이해하는 길.
Llama 3 (2024년 4월)
8B 와 70B 도입 — Grouped Query Attention (GQA, 8 KV heads), 128K vocabulary, RoPE positional encoding, SwiGLU activations. 70B 가 특히 "competent open-weight 70B-class dense" 의 de facto reference 가 됐어 — 모든 작은 fine-tune 이 따라잡고 싶어한 그것.
Llama 3.1 (2024년 7월)
405B 추가 — 공개된 가장 큰 dense 모델 중 하나 — 패밀리 전반 context 128K. 405B 는 FLOP cost 때문에 scale 서빙 거의 안 되지만, frontier size 에서 dense scaling laws 를 visible 하게 만들었어.
Llama 3.2 / 3.3
3.2 는 small (1B, 3B) 과 multimodal (11B, 90B) variant 추가. 3.3 은 405B-level 행동에 가까운 refined 70B-Instruct 를 그것의 fraction compute 로 ship. 70B-Instruct 는 2025–2026 production 용으로 가장 leverage 높은 dense Llama.
Llama 4 (2025년 4월) — MoE pivot
Llama 4 는 Meta 의 첫 MoE generation (Scout, Maverick, Behemoth). Llama 3.x dense 를 대체 안 해 — 옆에 앉아. 많은 실무자가 여전히 예측 가능한 서빙 위해 Llama 3.3 70B default 쓰고 Llama 4 가 frontier-capacity 슬롯 채워. Dense 패밀리는 deprecate 안 됐어 — differentiate 됐어.