프론티어급 모델은 수십억 파라미터에 도달 중이지만, 작은 모델 — 1B부터 30B — 의 다른 계보가 실제 task에서 놀라울 만큼 경쟁력 있어졌어. 소비자 하드웨어에서 돌고, GPU 한 장에 들어가고, production에 종종 옳은 선택.
Microsoft Phi
Phi-4 (14B)는 9.8T 토큰(많은 부분이 추론용으로 큐레이션된 합성 데이터)으로 H100 GPU 1920장 21일 학습. GPQA 56.1% 달성. Phi-4-mini (3.8B)는 GQA 사용, 128K 컨텍스트 지원, 16GB GPU에서 편안히 돌아.
Google Gemma 3
1B, 4B, 12B, 27B 변종. 아키텍처 변화: local-window attention과 global attention layer의 5:1 비율, 1024 토큰 sliding window. SigLIP ViT (400M params) 백본 통한 비전. SentencePiece tokenizer + 262K vocab, 140+ 언어 커버.
Alibaba Qwen 3
Qwen 3-235B-A22B (MoE, 총 235B / active 22B, 128K 컨텍스트)이 플래그십. Qwen 3-32B와 Qwen 3-7B 같은 dense 변종이 오픈소스에서 널리 사용. Qwen 3-30B-A3B (30B / 3B active)는 효율적 추론용 극단 MoE 설계.
교훈
더 좋은 데이터 + 더 긴 스케줄로 학습된 더 작은 모델이 고정 품질 예산에서 훨씬 큰 모델 매치 가능. Phi-4 (14B)가 추론 벤치마크에서 5배 큰 모델과 경쟁. 옳은 작은 모델 고르기가 종종 가능한 가장 큰 모델 고르기보다 나아.