모던 LLM 사전학습은 상상하기 어려운 스케일에서 데이터 바인딩.
| 모델 | 연도 | 학습 토큰 |
|---|---|---|
| BERT | 2018 | ~3.3B |
| GPT-3 | 2020 | 300B |
| Llama 1 | 2023 | 1.4T |
| Llama 2 | 2023 | 2T |
| Llama 3 (8B / 70B) | 2024 | 15T |
| DeepSeek-V3 | 2024 | 14.8T |
| Llama 3.3 (70B) | 2024 | 15T+ |
출처는 필터링된 Common Crawl, 책, 코드 저장소(GitHub), Wikipedia, 과학 논문(arXiv, S2ORC), 그리고 큐레이션된 데이터셋의 long tail. 품질이 스케일만큼 중요 — dedup, near-duplicate 제거, 언어 식별, toxicity 필터링, 코드 품질 필터링 모두가 고정 컴퓨트에서 모델 품질을 가시적으로 개선.
데이터가 비밀 소스. 동일 아키텍처/하이퍼파라미터/컴퓨트의 두 모델이 데이터 혼합에 따라 꽤 다른 downstream 동작 가능. "뭘로 학습했냐?"가 모델 카드에서 가장 자주 회피되는 질문 중 하나인 이유.