C.W.K.
Stream
Lesson 03 of 12 · published

학습 데이터 — 수조 토큰

~8 min · data, scale

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

모던 LLM 사전학습은 상상하기 어려운 스케일에서 데이터 바인딩.

모델연도학습 토큰
BERT2018~3.3B
GPT-32020300B
Llama 120231.4T
Llama 220232T
Llama 3 (8B / 70B)202415T
DeepSeek-V3202414.8T
Llama 3.3 (70B)202415T+

출처는 필터링된 Common Crawl, 책, 코드 저장소(GitHub), Wikipedia, 과학 논문(arXiv, S2ORC), 그리고 큐레이션된 데이터셋의 long tail. 품질이 스케일만큼 중요 — dedup, near-duplicate 제거, 언어 식별, toxicity 필터링, 코드 품질 필터링 모두가 고정 컴퓨트에서 모델 품질을 가시적으로 개선.

데이터가 비밀 소스. 동일 아키텍처/하이퍼파라미터/컴퓨트의 두 모델이 데이터 혼합에 따라 꽤 다른 downstream 동작 가능. "뭘로 학습했냐?"가 모델 카드에서 가장 자주 회피되는 질문 중 하나인 이유.

Code

Reading data scale from model cards·python
# What you're looking for in a model card:
#  - Tokens trained on (e.g., 'pretrained on 15T tokens')
#  - Data sources (Common Crawl? code? specific datasets?)
#  - Cutoff date (most recent data the model has seen)
#  - Filtering / dedup methodology
#  - Tokens-per-parameter ratio (Chinchilla check)

# Example: Llama 3 8B
tokens = 15e12
params = 8e9
print(f"tokens/param = {tokens/params:.0f}")     # ~1875
# Way past Chinchilla (~20). Aggressive over-training for inference cost.

External links

Exercise

open-weight 모델 셋 골라. 각각의 기술 보고서에서 (a) 총 학습 토큰, (b) 소스 데이터셋 이름, (c) 데이터 cutoff 날짜, (d) 보고된 dedup/필터링 단계 추출. 비교 표 만들어. 어느 모델이 데이터 파이프라인을 가장 잘 문서화했나?

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.