모델마다 d_model이랑 설계 철학에 따라 head 수가 달라. 패턴: d_head가 64 또는 128로 안정화, d_model과 head 수는 같이 성장.
| 모델 | d_model | Q heads | KV heads | d_head |
|---|---|---|---|---|
| Transformer Base (2017) | 512 | 8 | 8 | 64 |
| BERT-base | 768 | 12 | 12 | 64 |
| GPT-2 | 768 | 12 | 12 | 64 |
| GPT-3 | 12,288 | 96 | 96 | 128 |
| Llama 3 (8B) | 4,096 | 32 | 8 (GQA) | 128 |
| Llama 3.3 (70B) | 8,192 | 64 | 8 (GQA) | 128 |
| Mixtral 8×22B | 6,144 | 48 | 8 (GQA) | 128 |
| Qwen 2.5-7B | 3,584 | 28 | 4 (GQA) | 128 |
추세는 명확: 모던 모델은 d_head=128에 GQA로 KV head를 작게 유지. Q head(표현 capacity)와 KV head(캐시 메모리)의 분리는 지난 3년 가장 영향력 있는 설계 결정 중 하나야.