모든 모던 Transformer의 shape은 네 숫자 튜플. 어떤 모델 config에서든 이걸 읽으면 아키텍처를 알아.
| 기호 | 의미 | 전형적 2026 값 |
|---|---|---|
| d_model | Hidden 차원. 모든 내부 표현의 너비. | 768 – 12,288 |
| d_ff | FFN intermediate 차원. SwiGLU면 ≈ 8/3 × d_model. | 2,048 – 28,672 |
| n_heads (Q) | query head 수. | 12 – 96 |
| n_kv_heads | KV head 수 (GQA). 종종 n_heads / 4 또는 /8. | 4 – 96 |
| n_layers | 쌓은 Transformer block 수. | 12 – 126 |
| d_head | = d_model / n_heads. 모던 기본 128. | 64 – 128 |
원조 Transformer Base는 d_model=512, d_ff=2048, n_heads=8, n_layers=6, d_head=64 사용. Llama 3.3 70B는 d_model=8192, d_ff~28000, n_q=64, n_kv=8 (GQA), n_layers=80, d_head=128. 같은 아키텍처, ~1000배 스케일, 다른 직사각형.