C.W.K.
Stream
Lesson 03 of 05 · published

Mamba-2 와 State Space Duality

~15 min · mamba-2, ssd, structured-matrices

Level 0Observer
0 XP0/50 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete

통합

Mamba-2 (Dao & Gu, 2024.5, arXiv:2405.21060) 는 아름다운 이론 결과를 증명한 논문: 모든 SSM 이 structured semiseparable matrix multiplication 과 같음. 이를 잡는 framework — State Space Duality, SSD — 가 SSM 과 linear attention 이 다른 시각에서 본 같은 연산 family 임을 보여. 다른 건 underlying matrix structure 에 두는 제약이지, fundamental nature 가 아냐.

이게 그냥 elegance 가 아냐. SSD framework 가 실무자한테 efficient sequence model 디자인의 통합 recipe 제공: structured matrix family 골라, SSM/linear-attention dual 공짜로 얻어. 또 모든 post-Transformer architecture — RetNet, Mamba, Hawk/Griffin, GLA — 가 비슷한 performance 특성으로 수렴한 이유 설명. 다 같은 수학적 surface 위에서 다른 시작점부터 움직이고 있었어.

Architectural 단순화

Mamba-2 는 또 A 를 full diagonal 에서 head 당 single scalar times identity 로 제한. expressiveness 손실처럼 들리고, 그렇긴 한데, 전체 computation 을 matmul-friendly 로 만들어 — NVIDIA tensor core 가 가속하기 위해 만들어진 종류의 연산. 결과: Mamba-1 대비 2–8× 학습 speedup, 그리고 head 당 state size 를 N=16 에서 N=64-256 까지 비례 cost 없이 키울 수 있는 능력. 더 큰 state, 더 많은 state 용량, 덜 lossy 한 압축.

Scale 에서의 hybrid 검증

NVIDIA 의 8B scale 내부 study 가 발견한 거 — Mamba-2-Hybrid (작은 비율의 attention layer 와 함께) 가 12 표준 벤치마크 전부에서 pure Transformer 를 이김, 평균 약 +2.65 점 이득. 그게 누가 만든 것 중 hybrid architecture 의 가장 강한 경험적 신호: "competitive" 도 "close" 도 아니라, 큰 scale 에서 모든 task 에서 실제로 더 나아.

SSD framework 가 hybrid 디자인을 쉽게 만든 거야. SSM layer 와 attention layer 가 같은 연산 family 인 걸 알면, 섞는 게 architectural 타협 아냐 — 다른 depth 에서 structured-matrix axis 의 다른 점 고르는 것. 그 개념적 lubrication 이 2024–2026 hybrid 모델 폭발의 일부 이유야.

External links

Exercise

Albert Gu 의 Mamba-2 blog 시리즈 part 1 (위 링크) 읽어. 내재화할 핵심 주장은 SSM 연산과 structured matrix multiply 사이의 동등성. 모든 derivation 따를 필요 없어 — SSM matrix 가 어떻게 factor 되는지 그림에 집중. 그 그림 클릭하면, SSD framework 나머지는 대부분 bookkeeping.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.