스케일링 가설은 경험적 주장이야 — 트랜스포머 아키텍처 내에서, 파라미터 / 데이터 / 컴퓨트를 더 부으면 능력이 산발적이 아니라 부드럽게 예측 가능하게 늘어난다는 거.
이 분야를 박은 논문 두 개:
- Kaplan et al. (2020). loss는 모델 크기 / 데이터셋 크기 / 컴퓨트에 대해 power law로 감소. 컴퓨트 분배에 대한 정량 가이드 제공.
- Chinchilla (Hoffmann et al., 2022). Kaplan의 분배 규칙 업데이트: 파라미터와 토큰을 같이 키워라. 컴퓨트 최적 비율은 파라미터당 학습 토큰 약 20개. 이전 모델 다수(GPT-3 포함, 토큰/파라미터 약 1.7)는 사실 underтрейн 상태였던 거지.
Chinchilla 이후의 방향 전환
2024년 즈음 분야는 Chinchilla 최적을 넘어갔어. LLaMA 3 (8B)는 15T 토큰으로 학습 — 토큰/파라미터 1,875, Chinchilla의 약 94배. 논리: 학습 비용은 한 번이지만 inference 비용은 영원해. 같은 품질이면 더 작고 더 over-train된 모델이 서빙하기 싸지, Chinchilla 기준으론 학습 컴퓨트를 "낭비"한 셈이라도.
open weight 생태계가 production deployment 대부분에서 Chinchilla-optimal 200-400B보다 공격적으로 over-train된 7-70B를 선호하는 이유가 이거야.