C.W.K.
Stream
Lesson 08 of 12 · published

네 숫자 — d_model, d_ff, n_heads, n_layers

~8 min · hyperparameters, synthesis

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

모든 모던 Transformer의 shape은 네 숫자 튜플. 어떤 모델 config에서든 이걸 읽으면 아키텍처를 알아.

기호의미전형적 2026 값
d_modelHidden 차원. 모든 내부 표현의 너비.768 – 12,288
d_ffFFN intermediate 차원. SwiGLU면 ≈ 8/3 × d_model.2,048 – 28,672
n_heads (Q)query head 수.12 – 96
n_kv_headsKV head 수 (GQA). 종종 n_heads / 4 또는 /8.4 – 96
n_layers쌓은 Transformer block 수.12 – 126
d_head= d_model / n_heads. 모던 기본 128.64 – 128

원조 Transformer Base는 d_model=512, d_ff=2048, n_heads=8, n_layers=6, d_head=64 사용. Llama 3.3 70B는 d_model=8192, d_ff~28000, n_q=64, n_kv=8 (GQA), n_layers=80, d_head=128. 같은 아키텍처, ~1000배 스케일, 다른 직사각형.

Code

Read the rectangle from any HF model·python
from transformers import AutoConfig

def rectangle(name):
    cfg = AutoConfig.from_pretrained(name)
    return {
        'd_model': cfg.hidden_size,
        'd_ff': cfg.intermediate_size,
        'n_q_heads': cfg.num_attention_heads,
        'n_kv_heads': getattr(cfg, 'num_key_value_heads', cfg.num_attention_heads),
        'n_layers': cfg.num_hidden_layers,
        'd_head': cfg.hidden_size // cfg.num_attention_heads,
    }

for m in ["meta-llama/Meta-Llama-3-8B",
          "mistralai/Mistral-7B-v0.3",
          "Qwen/Qwen2.5-7B"]:
    print(m, rectangle(m))

External links

Exercise

Hugging Face 모델 ID 받아서 rectangle + 추정 파라미터 수 출력하는 작은 CLI 도구 작성. 서빙 고려할 만한 모델 5개에 돌려. 32K 컨텍스트에서 토큰당 KV-cache 크기로 정렬. 어느 게 서빙 메모리 가장 효율적? 어느 게 표현 가장 풍부?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.