"70억 파라미터"는 추상적 숫자. 각 스케일이 무엇을 의미하는지 — 능력, 하드웨어, 비용 — 직관 쌓기는 실제 스킬이야.
| 크기 | 예시 | 능력 tier | 하드웨어 |
|---|---|---|---|
| 1-3B | Phi-3-mini, Llama 3.2 1B/3B, Gemma 3 1B | 기본 task, 모바일 친화 | 단일 GPU, 스마트폰 |
| 7-8B | Llama 3 8B, Mistral 7B, Qwen 2.5-7B | 견고한 일반 능력 | 단일 16GB+ GPU |
| 13-14B | Phi-4, Gemma 3 12B | 강한 추론, 좁은 task에선 프론티어급에 가까움 | 단일 24GB+ GPU |
| 27-32B | Gemma 3 27B, Qwen 2.5-32B | 대부분 task에서 프론티어 품질 접근 | 1-2 GPU |
| 65-70B | Llama 3.3 70B | 프론티어 품질 dense 모델 | FP16 2-4 GPU, INT4 1 GPU |
| 200-400B dense | Llama 3.1 405B | 최상위 품질 | cluster (8+ GPU) |
| MoE 100-700B 총 | Mixtral 8×22B, DeepSeek-V3, Llama 4 | 최상위 품질, active ~20-40B | 4-8 GPU (양자화 따라) |
핵심: sweet spot이 시간 따라 이동. 2023년엔 70B dense가 합리적 비용에 품질의 sweet spot. 2026년엔 active 파라미터 17-40B인 MoE 모델이 종종 70B dense를 품질에서 매치/초과하면서 더 싸게 서빙. 이 곡선의 옳은 지점 고르기가 배포 결정의 절반.