C.W.K.
Stream
Lesson 07 of 12 · published

오늘날의 scaling law — Chinchilla 너머

~10 min · scaling-laws, chinchilla

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

Scaling law는 parameter, data, compute 스케일하면서 loss가 어떻게 감소하는지 설명. 기초 논문 둘:

  • Kaplan et al. (2020). Loss는 N(params), D(학습 토큰), C(compute)에 대해 power law 따름. 원래는 compute의 ~73%를 params에, ~27%를 data에 할당 제안 — GPT-3 같은 큰 underтрейн 모델로 이어짐.
  • Chinchilla (Hoffmann et al., 2022). 업데이트 — params와 data를 같이 스케일. Compute 최적 비율: 파라미터당 학습 토큰 ~20개. 많은 옛 모델(GPT-3 포함)이 심하게 underтрейн이었던 거지.

Chinchilla 이후 변한 것

Production 지향 팀들은 학습 compute는 한 번이지만 inference compute는 영원하다는 걸 깨달았어. 그래서 더 싼 서빙을 위해 더 작은 모델을 over-train:

모델params토큰토큰/param
GPT-3 (2020)175B300B1.7 (심한 under-train)
Chinchilla 최적~20
Llama 2 (2023)7B2T~286
Llama 3 (2024)8B15T~1,875
Llama 3.1 (2024)70B15T~214

Llama 3 8B의 토큰/param 1,875는 Chinchilla 최적의 ~94배. "낭비된" 학습 compute는 수십억 토큰 서빙하는 더 작은 모델의 더 싼 inference로 여러 번 회수.

Code

Tokens-per-param sanity check·python
models = [
    ('GPT-3',     175e9, 300e9),
    ('Llama 1 7B', 7e9, 1.4e12),
    ('Llama 3 8B', 8e9, 15e12),
    ('Llama 3.1 70B', 70e9, 15e12),
    ('Llama 3.1 405B', 405e9, 15.6e12),
    ('DeepSeek-V3 (671B total)', 37e9, 14.8e12),  # active params
]
for name, p, t in models:
    ratio = t / p
    print(f"{name:>30}  tokens/param = {ratio:>7.1f}  (Chinchilla: 20)")

External links

Exercise

월 1억 쿼리 서빙 고려할 모델 골라. 계산 — (a) 일회성 학습 compute(대략), (b) 연간 inference compute(쿼리당 × 쿼리 × 12). over-training 프리미엄이 언제 회수되나? 더 작고 더 학습된 모델 vs 더 크고 Chinchilla 최적인 모델, 어느 쪽 선호?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.