오늘날의 scaling law — Chinchilla 너머

Scaling law는 parameter, data, compute 스케일하면서 loss가 어떻게 감소하는지 설명. 기초 논문 둘:

Kaplan et al. (2020). Loss는 N(params), D(학습 토큰), C(compute)에 대해 power law 따름. 원래는 compute의 ~73%를 params에, ~27%를 data에 할당 제안 — GPT-3 같은 큰 underтрейн 모델로 이어짐.
Chinchilla (Hoffmann et al., 2022). 업데이트 — params와 data를 같이 스케일. Compute 최적 비율: 파라미터당 학습 토큰 ~20개. 많은 옛 모델(GPT-3 포함)이 심하게 underтрейн이었던 거지.

Chinchilla 이후 변한 것

Production 지향 팀들은 학습 compute는 한 번이지만 inference compute는 영원하다는 걸 깨달았어. 그래서 더 싼 서빙을 위해 더 작은 모델을 over-train:

모델	params	토큰	토큰/param
GPT-3 (2020)	175B	300B	1.7 (심한 under-train)
Chinchilla 최적	—	—	~20
Llama 2 (2023)	7B	2T	~286
Llama 3 (2024)	8B	15T	~1,875
Llama 3.1 (2024)	70B	15T	~214

Llama 3 8B의 토큰/param 1,875는 Chinchilla 최적의 ~94배. "낭비된" 학습 compute는 수십억 토큰 서빙하는 더 작은 모델의 더 싼 inference로 여러 번 회수.

Code

Tokens-per-param sanity check·python

models = [
    ('GPT-3',     175e9, 300e9),
    ('Llama 1 7B', 7e9, 1.4e12),
    ('Llama 3 8B', 8e9, 15e12),
    ('Llama 3.1 70B', 70e9, 15e12),
    ('Llama 3.1 405B', 405e9, 15.6e12),
    ('DeepSeek-V3 (671B total)', 37e9, 14.8e12),  # active params
]
for name, p, t in models:
    ratio = t / p
    print(f"{name:>30}  tokens/param = {ratio:>7.1f}  (Chinchilla: 20)")

오늘날의 scaling law — Chinchilla 너머

Chinchilla 이후 변한 것

Code

External links

Exercise

Progress

댓글 0