C.W.K.
Stream
← C.W.K. Quests
🌐

Beyond Attention Quest

최근 수정: 2026-05-04

Transformer 대안들 현장 가이드 — Mamba, RWKV, RetNet, Hyena, hybrids

Transformer 가 2017–2025 사이클을 먹었어. 2026 프런티어는 더 지저분해 — SSM 블록, recurrent gate, implicit convolution, attention 을 살짝 섞은 hybrid 스택까지. 이 quest 는 전체 풍경을 솔직한 tradeoff, 진짜 production 배포 사례, 그리고 워크로드에 architecture 를 매칭하는 실전 의사결정 프레임으로 한 번에 훑어. 벤치마크 쫓아다니지 말고, 무엇을 쓸지 근거로 설명할 수 있게 만들어주는 게 목표야.

10 tracks · 50 lessons · ~11h · difficulty: intermediate-to-advanced

Level 0Observer
0 XP0/50 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete
Beyond Attention Quest 는 10 트랙으로 가능한 모든 post-Transformer architecture 를 정직하게 둘러보는 코스야. O(n²) attention 이 왜 결국 벽을 만나는지, State Space Model 이 어떻게 history 를 fixed state 로 압축하는지 (S4 → Mamba → Mamba-3), RWKV 가 어떻게 학습은 Transformer 처럼 / 추론은 RNN 처럼 동작하는지, RetNet 의 retention 이 어떻게 SSD 프레임워크 전체를 만들었는지, Hyena 의 implicit convolution 이 왜 chatbot 이 아닌 genomics 에서 killer app 을 찾았는지, Kimi Linear 같은 linear/efficient attention 이 어디서 full attention 을 이기는지, 그리고 2026 production 배포가 왜 전부 hybrid (Jamba, Nemotron-H, Granite 4.0) 인지를 설명해. 마지막 트랙들은 왜 Transformer 가 여전히 dominant 인지 — 명시적 KV recall, 750K checkpoint ecosystem, GPU-friendly GEMM 패턴 — 까지 짚고, 실전 의사결정 가이드를 줘: 언제 Transformer + FlashAttention-3 + GQA 가 default 인지, 언제 hybrid 로 가야 하는지, SSM/Mamba 베팅이 정당화되는 시점은 언제인지, 그리고 architecture 논문 읽을 때 unfair baseline 에 속지 않는 법까지. 끝나면 누가 와서 "이런 워크로드인데 어떤 architecture 를 써야 해?" 물어봐도 숫자로 대답할 수 있어.

Tracks

  1. 01Why Look Beyond Attention?

    0/5 lessons

    Transformer 가 잘하는 거, 어디서 벽에 부딪히는지, "alternative" 가 진짜 뭘 의미하는지

    Transformer 가 지난 10 년을 먹은 건 self-attention 이 마침 시기상 딱 맞는 문제를 풀어줬기 때문이야. 근데 계산의 법칙을 폐지한 건 아냐. 이 트랙은 Transformer 가 정확히 뭘 잘하는지, O(n²) attention matrix 와 자라나는 KV-cache 가 실전에서 어디서 hard wall 로 나타나는지, 그리고 그 응답으로 어떤 architecture family 들이 등장했는지를 정리해. bottleneck 을 정확히 호명할 수 있게 되면 "Transformer 죽었나" 같은 잡담 멈추고, 정작 중요한 질문 — 어떤 워크로드가 quadratic tax 를 내고 있고, 어떤 워크로드는 안 내고 있는가 — 으로 넘어갈 수 있어.

    Lesson list (5)퀴즈 · 3 문제
  2. 02📡State Space Models — 큰 alternative family

    0/5 lessons

    Classical control theory 부터 S4, S4D, H3, 그리고 Mamba 가 깬 LTI 천장까지

    State Space Model 이 Transformer alternative 중 제일 큰 family 인 이유는, 수십 년 classical control theory 와 signal processing 위에 앉아 있어서 — 깊은 수학적 벤치가 있어. 이 트랙은 추상적 SSM 방정식부터 HiPPO 기반 S4, diagonal 단순화 S4D, gated H3 까지의 계보를 따라가고, 모든 pre-Mamba SSM 이 같은 LTI 천장에 부딪힌 정확한 이유를 설명해. 끝나면 SSM 을 GPU 에서 실용적이게 만든 dual training/inference 트릭을 이해하고, selectivity 가 추가되기 전에 빠져 있던 정확한 능력을 호명할 수 있어.

    Lesson list (5)퀴즈 · 3 문제
  3. 03🐍Mamba 와 Selective SSM 돌파구

    0/5 lessons

    S6 selectivity, hardware-aware scan, State Space Duality, Mamba-3 의 inference-first 디자인

    Mamba 가 SSM 이 research footnote 멈추고 production 에 나타나기 시작한 순간이야. 잠금 해제는 selectivity — B, C, Δ 를 input 의 함수로 만든 것 — 이고, 이게 모든 이전 SSM 을 cap 한 LTI 천장을 깼어. Selectivity 는 또 convolution 학습 트릭을 깨서, GPU SRAM 안에 사는 hardware-aware parallel scan 발명을 강제했어. 이 트랙은 Mamba 1/2/3 전체 계보를 따라가: selectivity 가 뭔지, 왜 새 학습 kernel 이 필요했는지, State Space Duality framework 가 뭘 통합했는지, Mamba-3 의 exponential-trapezoidal discretization 과 complex-valued state 가 추론 시점에 뭘 사줬는지.

    Lesson list (5)퀴즈 · 4 문제
  4. 04🦉RWKV — RNN 정신, Transformer 향

    0/5 lessons

    Dual training/inference formulation, v4 → v7 계보, TC⁰ 돌파, 그리고 세상에서 가장 큰 post-Transformer 배포

    RWKV 는 네가 모르고 실제 써본 alternative architecture 야 — Microsoft 가 on-device Copilot 위해 RWKV v5 를 약 15 억 Windows 머신에 ship, 어떤 post-Transformer architecture 보다 orders of magnitude 큰 배포. 헤드라인 트릭은 dual formulation: Transformer 처럼 학습 (parallel, GPU-friendly), RNN 처럼 추론 (constant memory, 토큰 당 O(1)). 이 트랙은 v4 Dove 부터 v7 Goose 까지 계보 따라가고, RWKV-7 을 표준 Transformer 를 cap 하는 TC⁰ complexity class 밖으로 둔 formal expressivity 결과 설명, RWKV 의 recall 한계가 어디서 나타나는지 솔직하게 알려줘.

    Lesson list (5)퀴즈 · 3 문제
  5. 05🔁RetNet — Retention 과 Memory-Based Path

    0/5 lessons

    Three-paradigm computation, fixed exponential decay, 그리고 RetNet 의 가장 큰 기여가 후속 architecture 들의 영감이었던 이유

    RetNet 은 모든 post-Transformer overview 에서 언급되지만 scale production 에서 본 적 없는 alternative architecture 야. Microsoft Research 의 2023 논문이 retention 도입 — 같은 parameter 에서 parallel, recurrent, chunkwise mode 지원하는 fixed per-head exponential decay 의 recurrent 연산. RetNet 의 헤드라인 숫자는 6.7B scale 에서 인상적이었고 수학은 elegant 했어. 근데 진짜 기여는 conceptual: Mamba-2 의 State Space Duality, Google 의 Hawk/Griffin, Gated Linear Attention 을 직접 seed. 이 트랙이 architecture, 세 paradigm, data-independent decay tradeoff, 그리고 architecture 의 가장 깊은 영향이 downstream 에 사는 이유 walk.

    Lesson list (5)퀴즈 · 3 문제
  6. 06🐾Hyena 와 Implicit Convolution

    0/5 lessons

    FFT-based long convolution, StripedHyena 계보, 그리고 killer app 이 DNA 였던 이유

    Hyena 는 "attention 이나 recurrence 대신 학습된 convolution filter 로 sequence mixing 하면 어떨까?" 물은 architecture. 트릭은 filter 를 <em>implicit</em> — positional encoding 에서 작은 FFN 이 생성 — 으로 만들어, 비례 메모리 없이 임의로 길게. FFT-based application 이 cost 를 O(L log L) 로. Hyena 가 2023 에 유명해지고, language modeling 에서 Mamba out-compete 하려고 struggle 했고, 조용히 진짜 home 을 genomics 에서 발견 — StripedHyena 2 가 Evo 2 를 powering, 1M context 의 40B 모델, viable mitochondrial genome 생성. 이 트랙이 operator, multi-scale hybrid 계보 walk, 그리고 niche-excellent architecture 가 때로 generally-mediocre 한 것보다 더 가치 있는 이유 설명.

    Lesson list (5)퀴즈 · 3 문제
  7. 07Linear & Efficient Attention Variant

    0/5 lessons

    Performer, Longformer, BigBird, sliding window, NSA, MoBA, Kimi Linear — attention frame 안에 머물기

    모든 alternative architecture 가 attention 떠나는 건 아냐. 한 family 의 접근이 attention frame 유지하면서 kernelization (linear attention, Performer), sparsity (Longformer, BigBird, sliding window), 또는 restructuring (NSA, MoBA, Kimi Linear) 통해 O(n²) cost 감소. 이게 Transformer-friendly alternative — ecosystem 과 drop-in 호환, 채택 더 쉽고, 2024–2026 production 승리 대부분이 이 lane 에서. 이 트랙이 잘 안 통한 초기 kernelization 시도부터, Mistral 과 Griffin 이 productionize 한 sliding-window attention, 그리고 full attention 대비 처음으로 across-the-board 우위 주장한 2025.10 의 Kimi Linear 결과까지 계보 walk.

    Lesson list (5)퀴즈 · 3 문제
  8. 08🧬Hybrid Model — Field 가 실제 수렴한 곳

    0/5 lessons

    Jamba 의 1:7 비율, Hymba 의 parallel fusion, Nemotron-H 의 enterprise scale, MIRAS 이론적 통합

    이 quest 의 한 트랙만 읽는다면, 이거 읽어. 2024–2026 의 모든 성공한 non-Transformer architecture production 배포가 hybrid — Jamba (1:7 attention:Mamba), Nemotron-H (~8% attention layer), Granite 4.0 (9:1 비율), Bamba, Zamba2, Hymba, SAMBA. Field 가 서로 안 얘기하던 lab 들이 attention:SSM 비율의 작은 range 에 독립적으로 수렴. 이 트랙이 hybrid 가 작동하는 이유 설명, production zoo walk, 그리고 모든 sequence 모델을 associative memory 의 variant 로 통합하는 MIRAS framework 가리켜.

    Lesson list (5)퀴즈 · 4 문제
  9. 09👑왜 Transformer 가 여전히 Dominate

    0/5 lessons

    명시적 recall, ecosystem 관성, GPU-friendly GEMM, 학습 안정성 — 그리고 새 주장에 대한 healthy-skepticism framework

    8 트랙의 alternative architecture 후, 여기서 incumbent 변호 학습. Transformer 가 2026 의 거의 모든 frontier position 잡고 있는 건 관성이 아니라 구체적 advantage 때문: in-context learning 을 robust 하게 만드는 명시적 per-token KV cache, 750K-checkpoint ecosystem 과 mature serving 인프라, modern hardware 에 완벽 매핑되는 GPU GEMM 패턴, scale 에서 예측 가능한 학습 안정성. 이 트랙이 각 advantage walk 하고 production 에서 reproduce 안 되는 paper-flavored speedup 에 속지 않게 새 architecture 주장 평가 framework 로 끝.

    Lesson list (5)퀴즈 · 3 문제
  10. 10🧭Builder 위한 실용 의사결정 가이드

    0/5 lessons

    Transformer default 시점, hybrid reach 시점, SSM/RWKV/Hyena 가 실제 calc 되는 시점, 그리고 모든 논문 안 쫓고 current 유지하는 법

    전체 post-Transformer 풍경 walk 했어. 이제 의사결정 트리로 변환. 이 트랙이 가장 흔한 builder 질문 넷에 대한 구체적 가이드 줘: Transformer 머무를 시점, efficient attention 으로 충분할 시점, SSM/Mamba 진척이 stack 위해 추적할 가치 있을 시점, 논문에 빠져 죽지 않고 current 유지하는 법. 끝나면 화면 옆에 pin 가능한 architecture 의사결정 표 받아 — 그리고 동료가 "왜 이거 골랐어" 물으면 defensible 한 답.

    Lesson list (5)퀴즈 · 4 문제
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고
💛 by 똘이playful

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.