C.W.K.
Stream
Lesson 08 of 10 · published

스케일링 가설, 그리고 그게 맞은 부분

~16 min · scaling, chinchilla, kaplan

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

스케일링 가설은 경험적 주장이야 — 트랜스포머 아키텍처 내에서, 파라미터 / 데이터 / 컴퓨트를 더 부으면 능력이 산발적이 아니라 부드럽게 예측 가능하게 늘어난다는 거.

이 분야를 박은 논문 두 개:

  • Kaplan et al. (2020). loss는 모델 크기 / 데이터셋 크기 / 컴퓨트에 대해 power law로 감소. 컴퓨트 분배에 대한 정량 가이드 제공.
  • Chinchilla (Hoffmann et al., 2022). Kaplan의 분배 규칙 업데이트: 파라미터와 토큰을 같이 키워라. 컴퓨트 최적 비율은 파라미터당 학습 토큰 약 20개. 이전 모델 다수(GPT-3 포함, 토큰/파라미터 약 1.7)는 사실 underтрейн 상태였던 거지.

Chinchilla 이후의 방향 전환

2024년 즈음 분야는 Chinchilla 최적을 넘어갔어. LLaMA 3 (8B)는 15T 토큰으로 학습 — 토큰/파라미터 1,875, Chinchilla의 약 94배. 논리: 학습 비용은 한 번이지만 inference 비용은 영원해. 같은 품질이면 더 작고 더 over-train된 모델이 서빙하기 싸지, Chinchilla 기준으론 학습 컴퓨트를 "낭비"한 셈이라도.

open weight 생태계가 production deployment 대부분에서 Chinchilla-optimal 200-400B보다 공격적으로 over-train된 7-70B를 선호하는 이유가 이거야.

Code

The Chinchilla compute-optimal rule of thumb·python
# Compute (FLOPs) ≈ 6 × N × D
#   N = parameters, D = training tokens
# Compute-optimal: D ≈ 20 × N
# So if your compute budget is C FLOPs:
#   N* = sqrt(C / 120)  (approximately)
#   D* = 20 × N*

# Example: 10^22 FLOPs budget
import math
C = 1e22
N_star = math.sqrt(C / 120)         # ~ 9.1e9 = 9.1B params
D_star = 20 * N_star                 # ~ 1.8e11 = 180B tokens

External links

Exercise

GPT-2, GPT-3, Chinchilla, LLaMA 1, LLaMA 3, DeepSeek-V3의 발표된 파라미터 수와 학습 토큰 수를 log-log 스케일에 플롯. tokens = 20 × params 선을 겹쳐 그려. 어떤 모델이 위(over-train), 아래(under-train), 거의 선 위인지 분류해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.