고정 파라미터 예산에서 layer 더 쌓을까(deeper), 각 layer 넓힐까(d_model 크게)? 경험적으로 둘 다 중요한데, 올바른 비율은 자명하지 않아.
| 모델 | layer | d_model | Params | layer / d_model |
|---|---|---|---|---|
| Transformer Base | 6 | 512 | 65M | 1/85 |
| GPT-2 | 12 | 768 | 117M | 1/64 |
| GPT-3 | 96 | 12,288 | 175B | 1/128 |
| Llama 3 (8B) | 32 | 4,096 | 8B | 1/128 |
| Llama 3.3 (70B) | 80 | 8,192 | 70B | 1/102 |
| DeepSeek-V3 | 61 | — | 671B (37B active, MoE) | — |
패턴: 모델 스케일하면 깊이와 너비가 같이 성장. layer당 d_head는 64-128 근처 유지, 대부분 모던 아키텍처에서 대략 d_model ≈ 64-128 × n_layers. 정리는 아니지만 강한 경험적 규칙성.
둘 다 중요한 이유: 깊은 모델은 더 많은 구성적 함수 표현 가능(각 layer가 선행을 구성). 넓은 모델은 토큰당 더 풍부한 표현. 실용적 증거는 깊이가 언어 이해에 살짝 더 중요한데 ~80 layer 넘어가면 수확 체감 — 그 시점부턴 더 깊게 가기보다 넓히거나 sparse화(MoE)가 더 생산적.