S4 가 HiPPO 로 SSM 을 실용화
S4 (Gu, Goel, Ré, 2022) 가 SSM 을 control-theory curiosity 에서 신뢰할 만한 deep-learning architecture 로 바꾼 breakthrough 야. 트릭은 HiPPO initialization (High-order Polynomial Projection Operator) — A matrix 에 input history 를 polynomial basis 로 압축하는 데 수학적으로 optimal 한 structured form 을 줘. HiPPO 와 함께, model 이 수천 timestep 전 정보를 폭발하지도 collapse 하지도 않고 기억할 수 있게 됐어.
S4 는 또 linear recurrence 의 convolution view 를 정리: A 가 fixed 일 때, SSM 을 global convolution kernel K = (CB, CAB, CA²B, CA³B, ...) 로 "unroll" 가능. 그 kernel 을 FFT 로 적용하면 O(n log n) 학습, GPU 에서 완전 parallel. 같은 모델, 두 view: 추론 때 recurrent, 학습 때 convolutional. S4 는 Long Range Arena 벤치를 dominate 했고 SSM 이 footnote 이상일 수 있다는 걸 증명했어.
S4D 와 H3 — 단순화와 gating
S4D 는 A 를 diagonal 로 제한해서 S4 를 단순화. full HiPPO matrix 는 구현이 어색한 complex structured form 이었지 — diagonal 제한은 expressiveness 약간 잃고 훨씬 친한 GPU 구현 얻음. 이게 반복될 엔지니어링 패턴: 수식 단순화로 hardware 에서 이기고, quality 는 더 큰 모델이나 다른 트릭으로 회복.
H3 (Hungry Hungry Hippos, 2023) 는 SSM block 에 gating 메커니즘 추가 — LSTM 과 GRU 의 gate 에서 영감 받은 multiplicative interaction. H3 와 함께, SSM 이 처음으로 language modeling 에서 Transformer quality 에 접근하기 시작 — 특히 associative-recall 스타일 task. 근데 S4, S4D, H3 다 여전히 Linear Time-Invariant.
LTI 천장
LTI 는 matrix A, B, C 가 input 무관 fixed. 같은 A 가 매 timestep 적용 — 현재 토큰이 뭐든. 이게 convolution view 를 가능하게 (A 가 x 에 의존 안 하니까 global kernel 존재) 하지만, expressiveness 의 hard ceiling 이기도 해. LTI SSM 은 "이 토큰이 중요해 — 더 기억해" 또는 "이 토큰은 filler — fade out" 결정 못해. 모든 input 이 같은 time-invariant filter 로 처리.
S6 step — "Selective State Space", Mamba 가 된 — 이 B, C, Δ 를 input 의 함수로 만들어 LTI 를 깼어. 다음 트랙. 이 lesson 의 모든 것이 selectivity 가 마침내 이륙한 활주로야.