C.W.K.
Stream
Lesson 05 of 11 · published

Llama 계보 — open weight 프론티어

~10 min · llama, meta, open-weight

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

Meta의 Llama 시리즈가 거대 언어 모델 연구를 대중화. 각 release가 'open weight'가 의미할 수 있는 것을 밀고 나갔어.

릴리스날짜변종컨텍스트주목할 점
Llama 12023년 2월7B / 13B / 33B / 65B2K첫 경쟁력 있는 open-weight LLM (연구용 라이선스)
Llama 22023년 7월7B / 13B / 70B4K상업 라이선스, chat fine-tune
Llama 32024년 4월8B / 70B8K → 128K128K vocab, GQA, SwiGLU, RoPE — 모던 아키텍처 템플릿
Llama 3.12024년 7월8B / 70B / 405B128K405B 플래그십이 GPT-4급 독점 모델 매치
Llama 3.22024년 9월1B / 3B / 11B 비전 / 90B 비전128K더 작은 텍스트 모델 + 첫 비전 모델
Llama 3.32024년 12월70B128K정교화된 post-training, 39.3M H100 GPU-hour
Llama 4 Scout2025년 4월109B / 17B active10MMoE, iRoPE, multimodal native
Llama 4 Maverick2025년 4월400B / 17B active1Mexpert 128개 + shared expert 1개
Llama 4 Behemoth(발표됨)~2T 총 / 288B active프론티어급 teacher 모델 (2025년 기준 학습 중)

Llama 3.3 70B 아키텍처: 80 layer, d_model=8192, 64 Q head + 8 KV head (GQA 그룹 크기 8), SwiGLU 활성, RMSNorm, RoPE 위치 인코딩, 128K 컨텍스트 윈도우. 모든 모던 open-weight 팀이 출발점으로 삼는 템플릿.

Code

Loading and inspecting Llama 3.3 70B·python
from transformers import AutoConfig
cfg = AutoConfig.from_pretrained("meta-llama/Llama-3.3-70B-Instruct")
for k, v in vars(cfg).items():
    if not k.startswith('_'):
        print(f"  {k} = {v}")
# d_model = 8192, num_hidden_layers = 80,
# num_attention_heads = 64, num_key_value_heads = 8,
# intermediate_size ≈ 28672, vocab_size = 128256, ...

External links

Exercise

Llama 1 7B, Llama 3 8B, Llama 4 Scout의 config.json 비교. (d_model, n_layers, n_heads, n_kv_heads, vocab_size, context_length)이 어떻게 진화했는지 추적. 'params' vs 'context length'를 log-log 스케일에 플롯. 이 곡선 어디에 각 세대가 앉아 있나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.