다섯 family 와 각자 파는 것
모든 신뢰할 만한 alternative 는 다섯 family 중 하나에 들어가. category 부터 알면 quest 나머지가 acronym 행진처럼 안 느껴지고 작고 알 수 있는 ecosystem 의 투어로 느껴져.
State Space Models (SSM / Mamba family). 모든 history 를 fixed-size hidden state 로 압축. O(n) 학습 (convolution 또는 selective scan 으로) 과 O(1) 추론 memory. 계보: S4 → S4D → H3 → S6/Mamba → Mamba-2 → Mamba-3, 각 step 이 이전 한계를 누그러뜨려. 파는 것: long context 에서의 극한 efficiency. 포기하는 것: full window 에 대한 정확한 recall.
RWKV — RNN 정신, Transformer 향. linear-attention/RNN hybrid, 학습은 parallel 추론은 RNN. parameter R/W/K/V 명명, 1.5B Windows 디바이스에 ship (세계 어떤 post-Transformer architecture 보다 큰 배포). 파는 것: 학습 친화적인 cost 의 O(1) 추론. 포기하는 것: ~28K 토큰 넘어선 long-range exact recall, ecosystem 성숙도.
RetNet — retention 을 통합 primitive 로. 고정 exponential decay 로 attention 과 recurrence 를 잇고, 같은 parameter 로 parallel/recurrent/chunkwise mode 지원. 다른 것들보다 production traction 은 적었지만 개념적 영향은 더 컸어 — Mamba-2 의 State Space Duality, Google 의 Hawk/Griffin, Gated Linear Attention 을 직접 seed.
Hyena 와 convolutional alternatives. 작은 FFN 이 implicit 하게 생성하는 long convolution 을 FFT 로 O(L log L) 시간에 적용. chatbot 보다 genomics 에서 killer app 발견 (Evo 2, 40B, 1M context). 파는 것: 매우 긴 sequence 에서 dramatic speedup. 포기하는 것: recall, 자연어에서의 자연스러움.
Linear / efficient attention variants. Performer, Longformer, BigBird, Mistral-style sliding window, NSA, MoBA, Kimi Linear, MHLA. attention frame 을 유지하고 kernelization, sparsity, 재구성으로 cost 감소. 파는 것: Transformer ecosystem 과 drop-in 호환. 포기하는 것: 보통 작은 quality margin 을 보통 큰 efficiency 승리와 교환.
그리고 실제로 ship 하는 거
Hybrid. 2026 의 모든 성공한 production alternative 는 hybrid 야: Jamba (1:7 attention:Mamba), Nemotron-H (~92% attention layer 가 Mamba-2 로 교체), Granite 4.0 (9:1 Mamba:attention). pure SSM 이 못하는 recall 을 위해 attention layer 를 충분히 유지하면서 SSM efficiency 의 대부분을 가져가. 이 quest 의 narrative arc, 한 문장으로: field 가 attention 을 교체하려고 시도했고, pure 교체가 recall 을 잃는다는 걸 배웠고, hybrid 로 수렴했어.