깊이 vs 너비 — 파라미터를 어디 쓸까

고정 파라미터 예산에서 layer 더 쌓을까(deeper), 각 layer 넓힐까(d_model 크게)? 경험적으로 둘 다 중요한데, 올바른 비율은 자명하지 않아.

모델	layer	d_model	Params	layer / d_model
Transformer Base	6	512	65M	1/85
GPT-2	12	768	117M	1/64
GPT-3	96	12,288	175B	1/128
Llama 3 (8B)	32	4,096	8B	1/128
Llama 3.3 (70B)	80	8,192	70B	1/102
DeepSeek-V3	61	—	671B (37B active, MoE)	—

패턴: 모델 스케일하면 깊이와 너비가 같이 성장. layer당 d_head는 64-128 근처 유지, 대부분 모던 아키텍처에서 대략 d_model ≈ 64-128 × n_layers. 정리는 아니지만 강한 경험적 규칙성.

둘 다 중요한 이유: 깊은 모델은 더 많은 구성적 함수 표현 가능(각 layer가 선행을 구성). 넓은 모델은 토큰당 더 풍부한 표현. 실용적 증거는 깊이가 언어 이해에 살짝 더 중요한데 ~80 layer 넘어가면 수확 체감 — 그 시점부턴 더 깊게 가기보다 넓히거나 sparse화(MoE)가 더 생산적.

Code

Param budget split·python

def transformer_total(vocab, d, n_layers, d_ff_mul=4):
    embed = vocab * d
    attn  = 4 * d * d * n_layers
    ffn   = 2 * d * (d_ff_mul * d) * n_layers
    return embed + attn + ffn

# Same total budget, different shapes:
budget = 8_000_000_000
# Deep+narrow: 64 layers, d_model=2048
deep   = transformer_total(128_000, 2048, 64)
# Shallow+wide: 16 layers, d_model=4096
wide   = transformer_total(128_000, 4096, 16)
print(deep/1e9, wide/1e9)
# Both ~8B, but train very differently.

깊이 vs 너비 — 파라미터를 어디 쓸까

Code

External links

Exercise

Progress

댓글 0