d_model은 이 퀘스트에서 보게 될 가장 중요한 하이퍼파라미터야. 모든 내부 표현의 차원 — embedding 행, attention 출력, FFN 출력, 모든 layer를 통과하는 residual stream. d_model 크면 토큰당 capacity 커지고, attention 파라미터에선 제곱 비용, FFN 파라미터에선 선형 비용이 들어.
| 모델 | d_model | 레이어 | 총 파라미터 |
|---|---|---|---|
| BERT-base | 768 | 12 | 110M |
| GPT-2 | 768 | 12 | 117M |
| GPT-2-XL | 1,600 | 48 | 1.5B |
| Llama 3 (8B) | 4,096 | 32 | 8B |
| Llama 3.3 (70B) | 8,192 | 80 | 70B |
| GPT-3 | 12,288 | 96 | 175B |
왜 d_model 크면 도움이 되나: 각 차원이 의미의 다른 특징을 인코딩할 수 있어 — 문법적 역할, 감정, 격식 수준, 주제, named-entity 종류, 그리고 우리가 이름 못 붙인 수많은 것들. interpretability 연구(sparse autoencoder)에 따르면 모던 d_model=4096+ 표현 안에 superposition으로 압축된 별개 "feature"가 수만 개 있어.