LLaMA 패밀리 — 시대의 open-weight backbone

왜 Llama 가 비례 이상으로 중요해

Meta 의 Llama 시리즈는 모든 benchmark 에서 가장 capable 한 패밀리는 아니지만, open-weight 세계에서 가장 영향력 있는 dense backbone 이야. 2024–2026 의 fine-tuned 모델, RAG 시스템, agent stack 의 거대한 비율이 Llama derivative 위에 지어져. 그걸 분해하는 게 dense paradigm 을 이론이 아니라 practice 로 이해하는 길.

Llama 3 (2024년 4월)

8B 와 70B 도입 — Grouped Query Attention (GQA, 8 KV heads), 128K vocabulary, RoPE positional encoding, SwiGLU activations. 70B 가 특히 "competent open-weight 70B-class dense" 의 de facto reference 가 됐어 — 모든 작은 fine-tune 이 따라잡고 싶어한 그것.

Llama 3.1 (2024년 7월)

405B 추가 — 공개된 가장 큰 dense 모델 중 하나 — 패밀리 전반 context 128K. 405B 는 FLOP cost 때문에 scale 서빙 거의 안 되지만, frontier size 에서 dense scaling laws 를 visible 하게 만들었어.

Llama 3.2 / 3.3

3.2 는 small (1B, 3B) 과 multimodal (11B, 90B) variant 추가. 3.3 은 405B-level 행동에 가까운 refined 70B-Instruct 를 그것의 fraction compute 로 ship. 70B-Instruct 는 2025–2026 production 용으로 가장 leverage 높은 dense Llama.

Llama 4 (2025년 4월) — MoE pivot

Llama 4 는 Meta 의 첫 MoE generation (Scout, Maverick, Behemoth). Llama 3.x dense 를 대체 안 해 — 옆에 앉아. 많은 실무자가 여전히 예측 가능한 서빙 위해 Llama 3.3 70B default 쓰고 Llama 4 가 frontier-capacity 슬롯 채워. Dense 패밀리는 deprecate 안 됐어 — differentiate 됐어.

Code

Llama 3 dense 라인업 한눈에·python

llama_3_dense = [
    # name,            params, layers, d_model, ctx,    attention
    ("Llama 3.2 1B",     1,    16,     2048,   "128K",  "GQA"),
    ("Llama 3.2 3B",     3,    28,     3072,   "128K",  "GQA"),
    ("Llama 3 8B",       8,    32,     4096,   "8K",    "GQA (8 KV)"),
    ("Llama 3.1 70B",    70,   80,     8192,   "128K",  "GQA (8 KV)"),
    ("Llama 3.1 405B",   405,  126,    16384,  "128K",  "GQA (8 KV)"),
    ("Llama 3.3 70B",    70,   80,     8192,   "128K",  "GQA (8 KV) + better post-training"),
]

Exercise

Llama 3.1 70B 와 Llama 3.3 70B 의 model card 둘 다 Hugging Face 에서 열어. Architecture 섹션 거의 동일해. 3.3 가 3.1 과 어떻게 다른지 묘사하는 섹션 찾아 — 답은 거의 axis 2 (post-training) 에 살지 axis 1 아냐. 한 가지 specific 한 레시피 차이를 자기 말로 적어.