최적화 타겟이 옮겨졌어
Mamba-3 (2026.3, arXiv:2603.15569, ICLR 2026) 가 Mamba 계보가 최적화하는 게 뭔지의 중요한 shift 표시. Mamba-1 의 헤드라인은 selectivity. Mamba-2 의 헤드라인은 SSD 통한 학습 speed. Mamba-3 의 헤드라인은 추론: generate-time latency, long context 에서의 throughput, decoding 중 hardware utilization. Production 배포가 성숙하면서 deployment cost 가 학습 cost 를 binding constraint 로 추월했고, Mamba-3 가 그 shift 에 대한 계보의 응답.
구체적 변화 셋
Exponential-trapezoidal discretization. 이전 Mamba 버전은 zero-order-hold discretization 사용 — 가장 단순한 scheme 이지만 timestep 안에서 input 이 어떻게 변하는지 정보 버림. Exponential-trapezoidal 은 timestep 의 양 endpoint 사용, 같은 연산 수에 더 풍부한 recurrence dynamics. 실전에서 모델이 step 당 약간 더 많은 nuance 를 carry.
RoPE 통한 Complex-valued state. hidden state 를 complex space 에 representation 함으로써 (효과적으로 dimension pairing 하고 RoPE-style 각도로 회전), state 가 magnitude 옆에 phase 정보를 encode 가능. state-tracking 개선 — long sequence 에서 coherent count 와 index 유지하는 모델 능력 — 이게 pure SSM 의 historic 약점 중 하나.
MIMO formulation (Multiple-Input Multiple-Output). Autoregressive decoding 중 GPU 가 dramatically underutilized — 시간 대부분이 memory access 기다리며 보내, compute unit 은 idle. MIMO 는 SSM 을 step 당 여러 input 에서 여러 output 계산하도록 재구성, 안 그러면 idle 일 compute 를 일하게. 같은 wall-clock latency, 더 많은 accuracy.
숫자
1.5B scale 에서, Mamba-3 SISO 가 가장 빠른 모델 논문에서 테스트한 모든 sequence length 에서. MIMO 는 비교 가능한 speed 에서 약 +1.8 accuracy point 추가. 이 숫자 중 어느 것도 Transformer 의 통치를 끝내진 않을 거지만, 함께 Mamba-3 가 2026 production hybrid 작업에 나타나는 버전인 이유 설명 — deployment economics 가 실제 calc 되는 SSM variant.