01❓Why Look Beyond Attention?
0/5 lessonsTransformer 가 잘하는 거, 어디서 벽에 부딪히는지, "alternative" 가 진짜 뭘 의미하는지
Transformer 가 지난 10 년을 먹은 건 self-attention 이 마침 시기상 딱 맞는 문제를 풀어줬기 때문이야. 근데 계산의 법칙을 폐지한 건 아냐. 이 트랙은 Transformer 가 정확히 뭘 잘하는지, O(n²) attention matrix 와 자라나는 KV-cache 가 실전에서 어디서 hard wall 로 나타나는지, 그리고 그 응답으로 어떤 architecture family 들이 등장했는지를 정리해. bottleneck 을 정확히 호명할 수 있게 되면 "Transformer 죽었나" 같은 잡담 멈추고, 정작 중요한 질문 — 어떤 워크로드가 quadratic tax 를 내고 있고, 어떤 워크로드는 안 내고 있는가 — 으로 넘어갈 수 있어.
Lesson list (5)
- 01Transformer 가 강한 이유~14 min · transformer, attention, foundations
- 02O(n²) Bottleneck~16 min · complexity, scaling, flashattention
- 03KV-Cache 와 추론 비용~14 min · kv-cache, inference, gqa, mqa
- 04이 Bottleneck 이 왜 중요한가~12 min · long-context, deployment-cost, use-cases
- 05Alternative 풍경~18 min · landscape, ssm, rwkv, retnet, hyena, hybrids