192 GB (그리고 512 GB) 가 바꾸는 대화

왜 메모리 크기가 곧 대화인가

딥러닝 역사의 대부분 동안 "어떤 하드웨어가 필요한가" 의 대화는 GPU 가 몇 개 의 대화였어. 무언의 가정은 개별 GPU 의 VRAM 이 작다는 것 (16, 24, 가끔 80 GB) — 그래서 큰 모델을 담으려면 N 개에 펼쳐 박아. 그래서 canonical "70B 모델 돌릴 수 있어?" 답이 "응, 8x A100 랙에서" 였던 거.

Apple Silicon 의 high-memory tier 들이 그 대화를 먹었어. 192 GB 또는 512 GB unified memory 의 한 대 M-Ultra Studio 가 frontier 크기 모델을 책상 서랍에 들어가는 한 조각 의 하드웨어에 담아. 같은 모델, model parallelism 없음, NVLink 없음, 랙 없음. 이 레슨이 그걸 진짜로 만드는 냅킨 계산.

공식

Transformer 언어 모델의 추론 시 대략 메모리 풋프린트:

memory ≈ params × bytes_per_param × overhead_factor

bytes_per_param 은 quantization 에 달려 있어 (fp32 면 4, fp16/bf16 이면 2, int8/Q8 이면 1, Q4 면 0.5), 그리고 overhead_factor 는 KV cache, activation, framework allocator 여유분 회계해. 추론은 1.4× 가 합리적인 시작점. 학습 (optimizer state 와 gradient 까지) 은 4–6× 써.

숫자, 계산됨

아래 코드 블록이 몇 개의 대표 모델 크기와 quantization 레벨에 대한 냅킨 계산. 출력이 어떤 Mac tier 에 뭐가 fit 되는지.

그 표가 진짜 너한테 말하는 것

7B Q4 모델 (~5 GB) 은 사실상 어떤 M 시리즈 Mac 에서도 돌아. 이게 "노트북 위의 로컬 LLM" 의 모습.
70B fp16 모델 (~196 GB) 은 192 GB tier 가 필요 하고 그래도 빡빡. Q4 에선 (~49 GB) 64 GB MacBook Pro 에 fit.
180B Q4 모델 (~126 GB) 은 192 GB tier 필요 — overhead 와 함께 편안.
405B Q4 모델 (~284 GB) 은 512 GB Studio 필요. 이 tier 가 frontier 급 모델을 한 박스에서 돌리는 곳.

마지막 줄이 대화-바꾸는-거. 2025–2026 까지, 405B 모델을 돌린다는 건 클라우드 GPU 빌리거나 랙 마운트 엔터프라이즈 하드웨어 소유한다는 뜻이었어. 512 GB M3 Ultra Studio 가 그걸 책상 위에서, 벽 전원으로, 네트워킹 필요 없이 해. MLX 가 그 capability 의 소프트웨어 절반.

학습 caveat (slop 안 빠지게)

위의 모든 게 추론 계산. 70B 모델 full fine-tuning 은 weight, gradient (같은 크기), optimizer state (Adam 은 weight 크기의 2× 추가), activation 필요. 그래서 Track 4 가 LoRA / QLoRA 에 강하게 기대 — adapter 기반 fine-tuning 이 70B fine-tuning 을 256 GB 영역 대신 64 GB 영역으로 가져와.

Code

냅킨 계산 — 어느 모델이 어디 fit 되나·python

def model_size_gb(num_params_b: float, dtype_bytes: float, overhead: float = 1.4) -> float:
    """Approximate inference-time memory footprint, in gigabytes."""
    return num_params_b * 1e9 * dtype_bytes / 1e9 * overhead

rows = [
    ('7B',   7,   2.0,  'fp16/bf16'),
    ('7B',   7,   0.5,  'Q4'),
    ('13B',  13,  2.0,  'fp16/bf16'),
    ('13B',  13,  0.5,  'Q4'),
    ('70B',  70,  2.0,  'fp16/bf16'),
    ('70B',  70,  0.5,  'Q4'),
    ('180B', 180, 0.5,  'Q4'),
    ('405B', 405, 0.5,  'Q4'),
]

print(f"{'model':6} {'fmt':10} {'GB (1.4x overhead)':>22}")
for label, p, b, fmt in rows:
    print(f'{label:6} {fmt:10} {model_size_gb(p, b):>22.1f}')

# Output (verified 2026-05-03):
# model  fmt        GB (1.4x overhead)
# 7B     fp16/bf16                19.6
# 7B     Q4                        4.9
# 13B    fp16/bf16                36.4
# 13B    Q4                        9.1
# 70B    fp16/bf16               196.0
# 70B    Q4                       49.0
# 180B   Q4                      126.0
# 405B   Q4                      283.5

네 머신 sanity check·bash

# Your unified memory in GB (rounded down)
sysctl -n hw.memsize | awk '{ printf "Unified memory: %.0f GB\n", $1/1024/1024/1024 }'

# Sample (M3 Ultra Studio):
#   Unified memory: 512 GB

# Compare to the table above and the 70%-of-RAM rule of thumb (leave 30% for
# the OS, KV cache headroom, and other apps).

Exercise

냅킨 계산 코드 블록 돌려. 이제 네 머신 specific 한 custom row 하나 계산 — Hugging Face mlx-community org 에서 돌리고 싶은 모델 하나 골라, parameter 수와 published quantization 레벨 찾아, 1.4× overhead 로 추론 풋프린트 계산. 네 unified memory (sanity check 명령으로) 와 70% 룰에 비교. Fit 돼? 에디터도 켜놓을 공간까지 있게 fit 돼?