vocab 얼마나 커야 하나? 지난 5년 추세는 분명히 상승, 그리고 이유를 알아둘 가치 있어.
| tokenizer / vocab | 크기 | 사용 모델 |
|---|---|---|
| BERT WordPiece | 30,522 | BERT, DistilBERT |
| Llama 1/2 SentencePiece | 32,000 | Llama 1, Llama 2 |
| tiktoken p50k_base | 50,256 | GPT-2, GPT-3 |
| tiktoken cl100k_base | 100,256 | GPT-3.5, GPT-4 |
| Llama 3 BPE | 128,000 | Llama 3, 3.1, 3.3 |
| tiktoken o200k_base | 200,019 | GPT-4o |
| tiktoken o200k_harmony | 201,088 | GPT-5 |
| Gemma 3 SentencePiece | 262,144 | Gemma 3 (140+언어) |
경제학
vocab 크면 → 문장당 토큰 수 줄어 → "유용한" 메시지당 inference 비용 싸. 비용은 큰 embedding 행렬(vocab × d_model 파라미터) + 큰 output projection. 70B 모델 d_model=8192에서 32K → 200K로 가면 약 1.4B 파라미터 추가 — 전체의 2% 미만. 모든 쿼리마다 수 % 토큰 절약하는 거에 비해 사소한 비용이지.
vocab이 커진 또 다른 이유는 다국어 커버리지. 32K짜리 영어 중심 vocab은 한국어/중국어를 영어보다 3-4배 비효율적으로 토큰화해. Gemma 3의 140+ 언어 타깃 262K vocab이 그 격차 거의 다 메워.