01⚡왜 트랜스포머인가
0/10 lessons병렬 시퀀스 모델링 — 그게 깬 병목
트랜스포머가 실제로 푼 문제, attention이 recurrence를 이긴 이유, 2017 설계가 모던 AI 계보에서 어디에 자리 잡는지.
Lesson list (10)
- 01트랜스포머 이전의 시퀀스 모델링: RNN과 LSTM~22 min · history, rnn, lstm, background
- 02병렬화의 벽: GPU가 RNN을 싫어한 이유~18 min · parallelism, gpu, rnn
- 03긴 의존성과 vanishing gradient~18 min · long-range, vanishing-gradient, rnn
- 04attention의 핵심 통찰: 모든 쌍에 직접 접근~20 min · attention, intuition, core-idea
- 052017년 논문: 'Attention Is All You Need'~16 min · history, paper, vaswani-2017
- 06영향: 번역에서 GPT, BERT, 그리고 현대 LLM 스택으로~16 min · history, gpt, bert, llm
- 07텍스트를 넘어서: 비전, 오디오, 생물학~14 min · vision, audio, biology, multimodal
- 08스케일링 가설, 그리고 그게 맞은 부분~16 min · scaling, chinchilla, kaplan
- 09Encoder, Decoder, Encoder-Decoder — 모양 셋, 역할 셋~14 min · encoder, decoder, architecture-shapes
- 10로드맵: Track 2-8에서 쌓을 것들~8 min · roadmap, course-overview