이제 모든 부품이 있어. 완성된 모던 decoder-only Transformer block은 이렇게 생겼어:
x ← x + MultiHeadAttention(RMSNorm(x))
x ← x + SwiGLU_FFN(RMSNorm(x))
x ← x + SwiGLU_FFN(RMSNorm(x))
이게 다야. sublayer 둘, 각각 normalization 다음에 residual 덧셈. N개 복사해서 쌓으면 풀 Transformer 몸체. 마지막 block의 출력이 최종 RMSNorm + LM head(vocab 크기로 projection, 종종 input embedding과 weight-tied) 통과.
모델 간 변하는 것
block은 주요 모델 계열을 가로질러 놀랍도록 안정적. 변하는 건:
- Attention 종류: dense MHA / GQA / MQA / sliding-window / sparse.
- 위치 스킴: RoPE / ALiBi / iRoPE / Sandwich / yarn-scaled.
- 활성: GELU / SwiGLU / GeGLU.
- FFN: 표준 / MoE — FFN을 router + 많은 expert로 대체.
- Normalization: LayerNorm / RMSNorm / DeepNorm(드문).
이 diagram을 읽을 수 있으면 사실상 모든 모던 모델 카드를 읽을 수 있어. 안 변하는 95%의 아키텍처를 이제 체화한 거야.