여기까지 왜를 봤어. 남은 일곱 트랙이 어떻게야. 각 트랙이 아키텍처의 특정 layer로 들어가서 — 끝날 때쯤이면 모던 모델 카드 어떤 거든 읽고 설계 선택 이유를 외우지 말고 추론할 수 있게 되는 게 목표.
- Track 2 — Tokenization. 텍스트가 정수가 되는 과정. BPE, WordPiece, SentencePiece, vocab 크기, 그리고 "GPT가 글자 못 센다"의 출처.
- Track 3 — Embeddings & Position. 토큰 ID가 dense vector가 되고, 위치 정보가 sinusoid / learned / RoPE / ALiBi로 주입돼.
- Track 4 — Attention. Q/K/V, multi-head, causal mask, KV cache, GQA, Flash Attention. 가장 깊은 트랙.
- Track 5 — The Block. attention + FFN + norm + residual이 unit cell로 합쳐지는 방식, 그리고 그걸 80번 쌓으면 뭐가 달라지는지.
- Track 6 — Training & Generation. loss, 스케줄, mixed precision, 디코딩 전략, 그리고 정렬 스택(RLHF / DPO / GRPO / Constitutional AI).
- Track 7 — Model Families. GPT, LLaMA, Mistral, Claude, Gemini, Qwen, Phi, Gemma, 그리고 state-space 대안(Mamba, RWKV).
- Track 8 — Practical Understanding. 모델 카드 읽기, 메모리 산수, 양자화, 벤치마크, 2026년의 scaling law, inference 최적화, 그리고 최신 흐름 따라가는 법.
각 트랙은 자체완결이지만 앞 트랙들 위에 쌓여. 익숙한 주제면 lesson은 빠르게 훑고 exercise에 집중해 — 거기서 실제 체화가 일어나니까. 시작하자.