모던 Transformer의 파라미터 수를 (vocab, d_model, n_layers, d_ff, n_q_heads, n_kv_heads) 튜플에서 머릿속으로, 최악으로 냅킨 위에서 추정할 수 있어야 해. 공식은 단순:
N ≈ vocab · d_model + n_layers · ((n_q + 2 n_kv) · d_model · d_head + d_model² + 3 · d_model · d_ff + 2 · d_model)
block당 분해:
- Q projection: n_q_heads · d_model · d_head — n_q_heads = d_model / d_head이면 d_model²과 동일.
- K, V projection: 각각 n_kv_heads · d_model · d_head. GQA면 Q보다 훨씬 작음.
- Output projection: d_model² (head 섞음).
- FFN (SwiGLU): 3 · d_model · d_ff.
- RMSNorm × 2: 2 · d_model (무시 가능).
지배적 항은 FFN(block당 파라미터의 약 70%)과 embedding(큰 모델에선 비율적으로 작아지는 일회성 비용).