왜 메모리 크기가 곧 대화인가
딥러닝 역사의 대부분 동안 "어떤 하드웨어가 필요한가" 의 대화는 GPU 가 몇 개 의 대화였어. 무언의 가정은 개별 GPU 의 VRAM 이 작다는 것 (16, 24, 가끔 80 GB) — 그래서 큰 모델을 담으려면 N 개에 펼쳐 박아. 그래서 canonical "70B 모델 돌릴 수 있어?" 답이 "응, 8x A100 랙에서" 였던 거.
Apple Silicon 의 high-memory tier 들이 그 대화를 먹었어. 192 GB 또는 512 GB unified memory 의 한 대 M-Ultra Studio 가 frontier 크기 모델을 책상 서랍에 들어가는 한 조각 의 하드웨어에 담아. 같은 모델, model parallelism 없음, NVLink 없음, 랙 없음. 이 레슨이 그걸 진짜로 만드는 냅킨 계산.
공식
Transformer 언어 모델의 추론 시 대략 메모리 풋프린트:
memory ≈ params × bytes_per_param × overhead_factor
bytes_per_param 은 quantization 에 달려 있어 (fp32 면 4, fp16/bf16 이면 2, int8/Q8 이면 1, Q4 면 0.5), 그리고 overhead_factor 는 KV cache, activation, framework allocator 여유분 회계해. 추론은 1.4× 가 합리적인 시작점. 학습 (optimizer state 와 gradient 까지) 은 4–6× 써.
숫자, 계산됨
아래 코드 블록이 몇 개의 대표 모델 크기와 quantization 레벨에 대한 냅킨 계산. 출력이 어떤 Mac tier 에 뭐가 fit 되는지.
그 표가 진짜 너한테 말하는 것
- 7B Q4 모델 (~5 GB) 은 사실상 어떤 M 시리즈 Mac 에서도 돌아. 이게 "노트북 위의 로컬 LLM" 의 모습.
- 70B fp16 모델 (~196 GB) 은 192 GB tier 가 필요 하고 그래도 빡빡. Q4 에선 (~49 GB) 64 GB MacBook Pro 에 fit.
- 180B Q4 모델 (~126 GB) 은 192 GB tier 필요 — overhead 와 함께 편안.
- 405B Q4 모델 (~284 GB) 은 512 GB Studio 필요. 이 tier 가 frontier 급 모델을 한 박스에서 돌리는 곳.
마지막 줄이 대화-바꾸는-거. 2025–2026 까지, 405B 모델을 돌린다는 건 클라우드 GPU 빌리거나 랙 마운트 엔터프라이즈 하드웨어 소유한다는 뜻이었어. 512 GB M3 Ultra Studio 가 그걸 책상 위에서, 벽 전원으로, 네트워킹 필요 없이 해. MLX 가 그 capability 의 소프트웨어 절반.
학습 caveat (slop 안 빠지게)
위의 모든 게 추론 계산. 70B 모델 full fine-tuning 은 weight, gradient (같은 크기), optimizer state (Adam 은 weight 크기의 2× 추가), activation 필요. 그래서 Track 4 가 LoRA / QLoRA 에 강하게 기대 — adapter 기반 fine-tuning 이 70B fine-tuning 을 256 GB 영역 대신 64 GB 영역으로 가져와.