스케일링 가설, 그리고 그게 맞은 부분

스케일링 가설은 경험적 주장이야 — 트랜스포머 아키텍처 내에서, 파라미터 / 데이터 / 컴퓨트를 더 부으면 능력이 산발적이 아니라 부드럽게 예측 가능하게 늘어난다는 거.

이 분야를 박은 논문 두 개:

Kaplan et al. (2020). loss는 모델 크기 / 데이터셋 크기 / 컴퓨트에 대해 power law로 감소. 컴퓨트 분배에 대한 정량 가이드 제공.
Chinchilla (Hoffmann et al., 2022). Kaplan의 분배 규칙 업데이트: 파라미터와 토큰을 같이 키워라. 컴퓨트 최적 비율은 파라미터당 학습 토큰 약 20개. 이전 모델 다수(GPT-3 포함, 토큰/파라미터 약 1.7)는 사실 underтрейн 상태였던 거지.

Chinchilla 이후의 방향 전환

2024년 즈음 분야는 Chinchilla 최적을 넘어갔어. LLaMA 3 (8B)는 15T 토큰으로 학습 — 토큰/파라미터 1,875, Chinchilla의 약 94배. 논리: 학습 비용은 한 번이지만 inference 비용은 영원해. 같은 품질이면 더 작고 더 over-train된 모델이 서빙하기 싸지, Chinchilla 기준으론 학습 컴퓨트를 "낭비"한 셈이라도.

open weight 생태계가 production deployment 대부분에서 Chinchilla-optimal 200-400B보다 공격적으로 over-train된 7-70B를 선호하는 이유가 이거야.

Code

The Chinchilla compute-optimal rule of thumb·python

# Compute (FLOPs) ≈ 6 × N × D
#   N = parameters, D = training tokens
# Compute-optimal: D ≈ 20 × N
# So if your compute budget is C FLOPs:
#   N* = sqrt(C / 120)  (approximately)
#   D* = 20 × N*

# Example: 10^22 FLOPs budget
import math
C = 1e22
N_star = math.sqrt(C / 120)         # ~ 9.1e9 = 9.1B params
D_star = 20 * N_star                 # ~ 1.8e11 = 180B tokens

스케일링 가설, 그리고 그게 맞은 부분

Chinchilla 이후의 방향 전환

Code

External links

Exercise

Progress

댓글 0