Memory가 진짜 제약
어떤 모델을 돌릴 수 있냐의 hard ceiling은 memory야 — compute 아니고. Weight가 들어가야 해. 안 들어가면 느린 path로 흘러내리거나 아예 로드 거부. Compute는 토큰/초 결정하는 거지, 토큰을 받을지 말지 결정하는 건 memory야.
Memory 아키텍처 두 종류
- Discrete GPU. NVIDIA RTX 4090 (24 GB), RTX 5090 (32 GB), 데이터센터급 H100 / H200 / B200 (80–192 GB). Weight는 system RAM과 분리된 VRAM에 살아. 대역폭 빠름 (1+ TB/s). GB당 비싸.
- Apple Silicon unified memory. CPU랑 GPU가 같은 풀 공유. Mac에 달린 16 GB / 64 GB / 128 GB / 192 GB / 512 GB 전부 weight에 사용 가능. 데이터센터 GPU보다 대역폭은 낮지만 (273–819 GB/s) 가격 대비 capacity는 압도적.
Sizing 어림셈
Q4 quantization (daily-driver default)에서 1B 파라미터당 ~1 GB. 7B 모델은 ~4 GB, 70B는 ~40 GB, 405B는 ~200 GB. Context, KV cache, runtime overhead 합쳐서 10–20% 더해. 빡빡하면 quant 한 단계 내리고, 여유 있으면 더 큰 quant 가져와.
Bandwidth가 속도 결정
Autoregressive generation의 decode는 bandwidth-bound야 — 새 토큰마다 weight를 다시 stream하는 구조. 메모리 대역폭이 GB/s가 모델 크기 대비 토큰/초 hard ceiling이 돼. M3 Ultra가 819 GB/s로 70B INT4를 95 tok/s 정도 뽑는데, 같은 모델이 대역폭 낮은 머신 가면 capacity는 멀쩡해도 30–60 tok/s로 떨어져.