Vocab 크기 — 32K부터 262K까지, 그리고 trade-off

vocab 얼마나 커야 하나? 지난 5년 추세는 분명히 상승, 그리고 이유를 알아둘 가치 있어.

tokenizer / vocab	크기	사용 모델
BERT WordPiece	30,522	BERT, DistilBERT
Llama 1/2 SentencePiece	32,000	Llama 1, Llama 2
tiktoken p50k_base	50,256	GPT-2, GPT-3
tiktoken cl100k_base	100,256	GPT-3.5, GPT-4
Llama 3 BPE	128,000	Llama 3, 3.1, 3.3
tiktoken o200k_base	200,019	GPT-4o
tiktoken o200k_harmony	201,088	GPT-5
Gemma 3 SentencePiece	262,144	Gemma 3 (140+언어)

경제학

vocab 크면 → 문장당 토큰 수 줄어 → "유용한" 메시지당 inference 비용 싸. 비용은 큰 embedding 행렬(vocab × d_model 파라미터) + 큰 output projection. 70B 모델 d_model=8192에서 32K → 200K로 가면 약 1.4B 파라미터 추가 — 전체의 2% 미만. 모든 쿼리마다 수 % 토큰 절약하는 거에 비해 사소한 비용이지.

vocab이 커진 또 다른 이유는 다국어 커버리지. 32K짜리 영어 중심 vocab은 한국어/중국어를 영어보다 3-4배 비효율적으로 토큰화해. Gemma 3의 140+ 언어 타깃 262K vocab이 그 격차 거의 다 메워.

Code

Embedding matrix cost vs vocab size·python

def embedding_params(vocab_size, d_model):
    return vocab_size * d_model

# Llama 3 8B: d_model=4096
for v in [32_000, 100_000, 128_000, 200_000, 262_144]:
    p = embedding_params(v, 4096)
    print(f"vocab {v:>7,}  embedding {p/1e6:>6.0f}M params")

# Llama 3 70B: d_model=8192 — twice the cost per vocab entry
for v in [32_000, 128_000, 262_144]:
    p = embedding_params(v, 8192)
    print(f"70B vocab {v:>7,}  embedding {p/1e9:>5.2f}B params")

Vocab 크기 — 32K부터 262K까지, 그리고 trade-off

경제학

Code

External links

Exercise

Progress

댓글 0