Mamba-3 — Inference-First 디자인 · Beyond Attention Quest

최적화 타겟이 옮겨졌어

Mamba-3 (2026.3, arXiv:2603.15569, ICLR 2026) 가 Mamba 계보가 최적화하는 게 뭔지의 중요한 shift 표시. Mamba-1 의 헤드라인은 selectivity. Mamba-2 의 헤드라인은 SSD 통한 학습 speed. Mamba-3 의 헤드라인은 추론: generate-time latency, long context 에서의 throughput, decoding 중 hardware utilization. Production 배포가 성숙하면서 deployment cost 가 학습 cost 를 binding constraint 로 추월했고, Mamba-3 가 그 shift 에 대한 계보의 응답.

구체적 변화 셋

Exponential-trapezoidal discretization. 이전 Mamba 버전은 zero-order-hold discretization 사용 — 가장 단순한 scheme 이지만 timestep 안에서 input 이 어떻게 변하는지 정보 버림. Exponential-trapezoidal 은 timestep 의 양 endpoint 사용, 같은 연산 수에 더 풍부한 recurrence dynamics. 실전에서 모델이 step 당 약간 더 많은 nuance 를 carry.

RoPE 통한 Complex-valued state. hidden state 를 complex space 에 representation 함으로써 (효과적으로 dimension pairing 하고 RoPE-style 각도로 회전), state 가 magnitude 옆에 phase 정보를 encode 가능. state-tracking 개선 — long sequence 에서 coherent count 와 index 유지하는 모델 능력 — 이게 pure SSM 의 historic 약점 중 하나.

MIMO formulation (Multiple-Input Multiple-Output). Autoregressive decoding 중 GPU 가 dramatically underutilized — 시간 대부분이 memory access 기다리며 보내, compute unit 은 idle. MIMO 는 SSM 을 step 당 여러 input 에서 여러 output 계산하도록 재구성, 안 그러면 idle 일 compute 를 일하게. 같은 wall-clock latency, 더 많은 accuracy.

숫자

1.5B scale 에서, Mamba-3 SISO 가 가장 빠른 모델 논문에서 테스트한 모든 sequence length 에서. MIMO 는 비교 가능한 speed 에서 약 +1.8 accuracy point 추가. 이 숫자 중 어느 것도 Transformer 의 통치를 끝내진 않을 거지만, 함께 Mamba-3 가 2026 production hybrid 작업에 나타나는 버전인 이유 설명 — deployment economics 가 실제 calc 되는 SSM variant.

Exercise

Mamba-3 논문의 abstract 와 MIMO section 읽어. 내재화할 핵심 통찰은 autoregressive decoding 중 워크로드가 compute-bound 가 아니라 memory-bound 라서 GPU compute 가 underutilized 라는 것. MIMO 는 wall-clock 시간 안 거래하고 compute 를 accuracy 와 거래. 이 패턴 (memory-bound 워크로드에 "공짜" compute 사용) 이 architecture 전반 serving 최적화에 반복 — speculative decoding 이 그 Transformer 사촌이야.

Mamba-3 — Inference-First 디자인

최적화 타겟이 옮겨졌어

구체적 변화 셋

숫자

External links

Exercise

Progress

댓글 0