로드맵: Track 2-8에서 쌓을 것들

여기까지 왜를 봤어. 남은 일곱 트랙이 어떻게야. 각 트랙이 아키텍처의 특정 layer로 들어가서 — 끝날 때쯤이면 모던 모델 카드 어떤 거든 읽고 설계 선택 이유를 외우지 말고 추론할 수 있게 되는 게 목표.

Track 2 — Tokenization. 텍스트가 정수가 되는 과정. BPE, WordPiece, SentencePiece, vocab 크기, 그리고 "GPT가 글자 못 센다"의 출처.
Track 3 — Embeddings & Position. 토큰 ID가 dense vector가 되고, 위치 정보가 sinusoid / learned / RoPE / ALiBi로 주입돼.
Track 4 — Attention. Q/K/V, multi-head, causal mask, KV cache, GQA, Flash Attention. 가장 깊은 트랙.
Track 5 — The Block. attention + FFN + norm + residual이 unit cell로 합쳐지는 방식, 그리고 그걸 80번 쌓으면 뭐가 달라지는지.
Track 6 — Training & Generation. loss, 스케줄, mixed precision, 디코딩 전략, 그리고 정렬 스택(RLHF / DPO / GRPO / Constitutional AI).
Track 7 — Model Families. GPT, LLaMA, Mistral, Claude, Gemini, Qwen, Phi, Gemma, 그리고 state-space 대안(Mamba, RWKV).
Track 8 — Practical Understanding. 모델 카드 읽기, 메모리 산수, 양자화, 벤치마크, 2026년의 scaling law, inference 최적화, 그리고 최신 흐름 따라가는 법.

각 트랙은 자체완결이지만 앞 트랙들 위에 쌓여. 익숙한 주제면 lesson은 빠르게 훑고 exercise에 집중해 — 거기서 실제 체화가 일어나니까. 시작하자.

Code

Suggested study artifact·markdown

# Transformer Quest — Field Notebook
## What I'm tracking
- One concept summary per lesson (own words)
- Every exercise's runnable code, in a single repo
- Numbers I find surprising (model sizes, throughput, BLEU/MMLU/etc.)
- Questions I haven't answered yet

## How I'll review
- Re-read my own summaries before each new track
- Update them when later tracks contradict earlier ones

Exercise

transformer_quest_notes.ipynb 새로 만들고, 남은 트랙(2~8)별로 heading 하나씩 넣어. 각 트랙 끝낼 때마다 채워 — (a) 그 트랙의 한 줄짜리 claim, (b) 가장 의외였던 lesson, (c) 기억하고 싶은 숫자 하나, (d) 남은 의문 하나. Track 8 끝나면 본인 field guide 한 권 생기는 거야.

로드맵: Track 2-8에서 쌓을 것들

Code

External links

Exercise

Progress

댓글 0