Recall failure 는 structural — bug 아냐
이게 pure SSM 에 대한 가장 중요한 단일 사실이고 명확히 말할 가치 있어. fixed-size hidden state 인 SSM 은 임의 context 에 대한 perfect recall 을 못해. 안 하는 게 아니라, 못해. 정보가 압축돼 버렸어. 2025 NeurIPS spotlight "Achilles' Heel of Mamba" 가 associative-recall family 의 task 에 대해 이걸 엄밀히 증명: pure SSM 은 더 많은 데이터, 더 많은 parameter, 더 좋은 학습으로 못 고치는 방식으로 실패.
그래서 2026 의 모든 성공한 production SSM 이 hybrid 야. field 가 도달한 경험적 답은 stack 에 "precision recall checkpoint" 제공할 만큼의 attention layer 유지 — 보통 SSM 7–9 layer 당 attention 1 layer — 그리고 SSM layer 가 bulk efficiency 일을 하게. 화려하지 않아; 작동해.
학습 안정성이 Transformer 보다 좁아
Mamba model 학습해본 사람은 누구나: optimal learning rate window 가 Transformer 보다 좁아. 2025 study 가 발견한 거 — recall-style probe 에서 Mamba accuracy 가 꽤 빡빡한 LR range 안에서 거의 0 에서 거의 optimal 로 점프. 잘못 고르면 학습 run 낭비. Initialization 선택이 더 중요. Schedule 모양이 더 중요. Hyperparameter 실수의 grace period 가 더 짧아.
Research lab 에는 OK — sweep 할 budget 있어. 학습 run 마다 진짜 돈 쓰는 production team 한테는 이 fragility 가 tax. 성숙한 Mamba recipe (NVIDIA 의 Nemotron training book, AI21 의 Jamba writeup) 가 도와주지만, "Mamba 는 까다로워" 는 "Transformer 는 까다로워" 가 더 이상 진실이 아닌 방식으로 2026 에도 여전히 진실이야.
Ecosystem 성숙도 gap
Hugging Face Transformers 는 Mamba 와 Mamba-2 를 native 지원, vLLM 은 day-1 Bamba 지원, Together AI stack 은 StripedHyena 운영. 근데 최적화 깊이는 Transformer 에 비할 수 없어. Quantization recipe 가 덜 battle-tested. Speculative decoding integration 이 더 거칠어. 커뮤니티 지식 — "아 그게 step 50K 의 loss spike, 여기 fix" — 이 더 천천히 쌓여. 이게 빠르게 변하지만, 2026 에는 의심 들 때 Transformer default 로 가는 single biggest 실용 이유야.