작은 모델 — Phi, Gemma, Qwen, 그리고 비용-품질 프론티어

프론티어급 모델은 수십억 파라미터에 도달 중이지만, 작은 모델 — 1B부터 30B — 의 다른 계보가 실제 task에서 놀라울 만큼 경쟁력 있어졌어. 소비자 하드웨어에서 돌고, GPU 한 장에 들어가고, production에 종종 옳은 선택.

Microsoft Phi

Phi-4 (14B)는 9.8T 토큰(많은 부분이 추론용으로 큐레이션된 합성 데이터)으로 H100 GPU 1920장 21일 학습. GPQA 56.1% 달성. Phi-4-mini (3.8B)는 GQA 사용, 128K 컨텍스트 지원, 16GB GPU에서 편안히 돌아.

Google Gemma 3

1B, 4B, 12B, 27B 변종. 아키텍처 변화: local-window attention과 global attention layer의 5:1 비율, 1024 토큰 sliding window. SigLIP ViT (400M params) 백본 통한 비전. SentencePiece tokenizer + 262K vocab, 140+ 언어 커버.

Alibaba Qwen 3

Qwen 3-235B-A22B (MoE, 총 235B / active 22B, 128K 컨텍스트)이 플래그십. Qwen 3-32B와 Qwen 3-7B 같은 dense 변종이 오픈소스에서 널리 사용. Qwen 3-30B-A3B (30B / 3B active)는 효율적 추론용 극단 MoE 설계.

교훈

더 좋은 데이터 + 더 긴 스케줄로 학습된 더 작은 모델이 고정 품질 예산에서 훨씬 큰 모델 매치 가능. Phi-4 (14B)가 추론 벤치마크에서 5배 큰 모델과 경쟁. 옳은 작은 모델 고르기가 종종 가능한 가장 큰 모델 고르기보다 나아.

Code

Comparing small-model size and ability·python

from transformers import AutoConfig

models = [
    "microsoft/Phi-4",
    "google/gemma-3-12b-it",
    "Qwen/Qwen2.5-7B-Instruct",
    "meta-llama/Meta-Llama-3.1-8B",
]
for m in models:
    cfg = AutoConfig.from_pretrained(m)
    params_billion_estimate = (
        cfg.vocab_size * cfg.hidden_size +
        cfg.num_hidden_layers * (
            4 * cfg.hidden_size * cfg.hidden_size
            + 3 * cfg.hidden_size * cfg.intermediate_size
        )
    ) / 1e9
    print(f"{m:<40} ~{params_billion_estimate:.1f}B params")

작은 모델 — Phi, Gemma, Qwen, 그리고 비용-품질 프론티어

Microsoft Phi

Google Gemma 3

Alibaba Qwen 3

교훈

Code

External links

Exercise

Progress

댓글 0