C.W.K.
Stream
Lesson 09 of 11 · published

작은 모델 — Phi, Gemma, Qwen, 그리고 비용-품질 프론티어

~12 min · phi, gemma, qwen, small-models

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

프론티어급 모델은 수십억 파라미터에 도달 중이지만, 작은 모델 — 1B부터 30B — 의 다른 계보가 실제 task에서 놀라울 만큼 경쟁력 있어졌어. 소비자 하드웨어에서 돌고, GPU 한 장에 들어가고, production에 종종 옳은 선택.

Microsoft Phi

Phi-4 (14B)는 9.8T 토큰(많은 부분이 추론용으로 큐레이션된 합성 데이터)으로 H100 GPU 1920장 21일 학습. GPQA 56.1% 달성. Phi-4-mini (3.8B)는 GQA 사용, 128K 컨텍스트 지원, 16GB GPU에서 편안히 돌아.

Google Gemma 3

1B, 4B, 12B, 27B 변종. 아키텍처 변화: local-window attention과 global attention layer의 5:1 비율, 1024 토큰 sliding window. SigLIP ViT (400M params) 백본 통한 비전. SentencePiece tokenizer + 262K vocab, 140+ 언어 커버.

Alibaba Qwen 3

Qwen 3-235B-A22B (MoE, 총 235B / active 22B, 128K 컨텍스트)이 플래그십. Qwen 3-32B와 Qwen 3-7B 같은 dense 변종이 오픈소스에서 널리 사용. Qwen 3-30B-A3B (30B / 3B active)는 효율적 추론용 극단 MoE 설계.

교훈

더 좋은 데이터 + 더 긴 스케줄로 학습된 더 작은 모델이 고정 품질 예산에서 훨씬 큰 모델 매치 가능. Phi-4 (14B)가 추론 벤치마크에서 5배 큰 모델과 경쟁. 옳은 작은 모델 고르기가 종종 가능한 가장 큰 모델 고르기보다 나아.

Code

Comparing small-model size and ability·python
from transformers import AutoConfig

models = [
    "microsoft/Phi-4",
    "google/gemma-3-12b-it",
    "Qwen/Qwen2.5-7B-Instruct",
    "meta-llama/Meta-Llama-3.1-8B",
]
for m in models:
    cfg = AutoConfig.from_pretrained(m)
    params_billion_estimate = (
        cfg.vocab_size * cfg.hidden_size +
        cfg.num_hidden_layers * (
            4 * cfg.hidden_size * cfg.hidden_size
            + 3 * cfg.hidden_size * cfg.intermediate_size
        )
    ) / 1e9
    print(f"{m:<40} ~{params_billion_estimate:.1f}B params")

External links

Exercise

세 테스트 카테고리(간단 Q&A, 다단계 추론, 코드 생성)로 작은 평가 harness 구성. Phi-4-mini, Gemma 3 12B, Qwen 2.5-7B, Llama 3.1 8B를 같은 prompt에 돌려. 품질 + latency 표로 정리. 각 카테고리에서 어느 모델이 이기나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.