모든 시퀀스 아키텍처가 Transformer는 아니야. State-space 모델(SSM)과 RNN-Transformer 하이브리드 일부가 O(n) 복잡도 대안 제공 — 언어 품질에 가까워지는 중이고 긴 컨텍스트에선 의미 있게 싸.
Mamba (Gu & Dao, 2023)
Mamba는 self-attention을 selective state-space 모델로 대체 — 어떤 정보를 유지/망각할지 결정하는 입력 의존 state transition 행렬. attention의 O(n²) 대신 O(n) 연산 + O(1) state. Mamba 1이 비교 가능한 Transformer 대비 긴 시퀀스에서 throughput 5배, wall-clock 3배 속도 시연.
Mamba 2 (2024)는 SSM을 구조화된 linear attention으로 재구성, 같은 연산을 행렬곱으로 표현. 결과: Mamba 1보다 학습 2-8배 빠름 + 구현 단순.
RWKV
RNN-Transformer 하이브리드 — Transformer처럼 병렬 학습, RNN처럼 O(1) 메모리로 추론. V4-V8 거치며 트릭 누적 — multi-headed 행렬 state, 동적 LoRA 기반 토큰 shifting, attention-free 혼합 layer. 많은 벤치마크에서 비교 가능 품질, 극적으로 낮은 추론 메모리.
| 아키텍처 | 학습 컴퓨트 | 추론 메모리 | 긴 컨텍스트 동작 |
|---|---|---|---|
| Transformer (dense attention) | O(n²) | O(n) | 1× (베이스라인) |
| Mamba 1 | O(n) | O(1) | throughput 5배 |
| Mamba 2 | O(n) | O(1) | Mamba 1보다 학습 2-8배 빠름 |
| RWKV (V6+) | O(n) 학습, O(1) 추론 | O(1) | 비교 가능 품질, 더 작은 메모리 |
이론적 우위에도 불구하고 SSM은 2026년 기준 production 언어 task에서 Transformer를 밀어내지 못했어. attention의 직접적 any-position 연결성이 복잡 추론에 여전히 강력하고, 엔지니어링 생태계(Flash Attention, vLLM, 학습 프레임워크)가 Transformer에서 효율의 마지막 한 방울까지 짜내도록 튜닝됐거든. 하이브리드 — attention과 SSM layer 번갈아 — 가 활발한 연구 방향(예: Jamba, Zamba).