Scaling law는 parameter, data, compute 스케일하면서 loss가 어떻게 감소하는지 설명. 기초 논문 둘:
- Kaplan et al. (2020). Loss는 N(params), D(학습 토큰), C(compute)에 대해 power law 따름. 원래는 compute의 ~73%를 params에, ~27%를 data에 할당 제안 — GPT-3 같은 큰 underтрейн 모델로 이어짐.
- Chinchilla (Hoffmann et al., 2022). 업데이트 — params와 data를 같이 스케일. Compute 최적 비율: 파라미터당 학습 토큰 ~20개. 많은 옛 모델(GPT-3 포함)이 심하게 underтрейн이었던 거지.
Chinchilla 이후 변한 것
Production 지향 팀들은 학습 compute는 한 번이지만 inference compute는 영원하다는 걸 깨달았어. 그래서 더 싼 서빙을 위해 더 작은 모델을 over-train:
| 모델 | params | 토큰 | 토큰/param |
|---|---|---|---|
| GPT-3 (2020) | 175B | 300B | 1.7 (심한 under-train) |
| Chinchilla 최적 | — | — | ~20 |
| Llama 2 (2023) | 7B | 2T | ~286 |
| Llama 3 (2024) | 8B | 15T | ~1,875 |
| Llama 3.1 (2024) | 70B | 15T | ~214 |
Llama 3 8B의 토큰/param 1,875는 Chinchilla 최적의 ~94배. "낭비된" 학습 compute는 수십억 토큰 서빙하는 더 작은 모델의 더 싼 inference로 여러 번 회수.