C.W.K.
Stream
Lesson 05 of 05 · published

Alternative 풍경

~18 min · landscape, ssm, rwkv, retnet, hyena, hybrids

Level 0Observer
0 XP0/50 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete

다섯 family 와 각자 파는 것

모든 신뢰할 만한 alternative 는 다섯 family 중 하나에 들어가. category 부터 알면 quest 나머지가 acronym 행진처럼 안 느껴지고 작고 알 수 있는 ecosystem 의 투어로 느껴져.

State Space Models (SSM / Mamba family). 모든 history 를 fixed-size hidden state 로 압축. O(n) 학습 (convolution 또는 selective scan 으로) 과 O(1) 추론 memory. 계보: S4 → S4D → H3 → S6/Mamba → Mamba-2 → Mamba-3, 각 step 이 이전 한계를 누그러뜨려. 파는 것: long context 에서의 극한 efficiency. 포기하는 것: full window 에 대한 정확한 recall.

RWKV — RNN 정신, Transformer 향. linear-attention/RNN hybrid, 학습은 parallel 추론은 RNN. parameter R/W/K/V 명명, 1.5B Windows 디바이스에 ship (세계 어떤 post-Transformer architecture 보다 큰 배포). 파는 것: 학습 친화적인 cost 의 O(1) 추론. 포기하는 것: ~28K 토큰 넘어선 long-range exact recall, ecosystem 성숙도.

RetNet — retention 을 통합 primitive 로. 고정 exponential decay 로 attention 과 recurrence 를 잇고, 같은 parameter 로 parallel/recurrent/chunkwise mode 지원. 다른 것들보다 production traction 은 적었지만 개념적 영향은 더 컸어 — Mamba-2 의 State Space Duality, Google 의 Hawk/Griffin, Gated Linear Attention 을 직접 seed.

Hyena 와 convolutional alternatives. 작은 FFN 이 implicit 하게 생성하는 long convolution 을 FFT 로 O(L log L) 시간에 적용. chatbot 보다 genomics 에서 killer app 발견 (Evo 2, 40B, 1M context). 파는 것: 매우 긴 sequence 에서 dramatic speedup. 포기하는 것: recall, 자연어에서의 자연스러움.

Linear / efficient attention variants. Performer, Longformer, BigBird, Mistral-style sliding window, NSA, MoBA, Kimi Linear, MHLA. attention frame 을 유지하고 kernelization, sparsity, 재구성으로 cost 감소. 파는 것: Transformer ecosystem 과 drop-in 호환. 포기하는 것: 보통 작은 quality margin 을 보통 큰 efficiency 승리와 교환.

그리고 실제로 ship 하는 거

Hybrid. 2026 의 모든 성공한 production alternative 는 hybrid 야: Jamba (1:7 attention:Mamba), Nemotron-H (~92% attention layer 가 Mamba-2 로 교체), Granite 4.0 (9:1 Mamba:attention). pure SSM 이 못하는 recall 을 위해 attention layer 를 충분히 유지하면서 SSM efficiency 의 대부분을 가져가. 이 quest 의 narrative arc, 한 문장으로: field 가 attention 을 교체하려고 시도했고, pure 교체가 recall 을 잃는다는 걸 배웠고, hybrid 로 수렴했어.

External links

Exercise

한 페이지에 다섯 family 를 box 로 그리고, 그것들을 aggregate 하는 hybrid family box 를 아래에 그려. 각 box 마다 한 줄로: (a) 이 architecture 가 사주는 게 뭐야? (b) 뭘 포기해? (c) production 배포 하나 이름. 이 그림을 화면 옆에 quest 나머지 동안 붙여놔. 이후 모든 트랙이 이 box 중 하나의 detail 을 채울 거야 — map 을 먼저 가지고 있으면 어느 하나에서 길 안 잃어.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.