Challenge 와 솔직한 평가

Recall failure 는 structural — bug 아냐

이게 pure SSM 에 대한 가장 중요한 단일 사실이고 명확히 말할 가치 있어. fixed-size hidden state 인 SSM 은 임의 context 에 대한 perfect recall 을 못해. 안 하는 게 아니라, 못해. 정보가 압축돼 버렸어. 2025 NeurIPS spotlight "Achilles' Heel of Mamba" 가 associative-recall family 의 task 에 대해 이걸 엄밀히 증명: pure SSM 은 더 많은 데이터, 더 많은 parameter, 더 좋은 학습으로 못 고치는 방식으로 실패.

그래서 2026 의 모든 성공한 production SSM 이 hybrid 야. field 가 도달한 경험적 답은 stack 에 "precision recall checkpoint" 제공할 만큼의 attention layer 유지 — 보통 SSM 7–9 layer 당 attention 1 layer — 그리고 SSM layer 가 bulk efficiency 일을 하게. 화려하지 않아; 작동해.

학습 안정성이 Transformer 보다 좁아

Mamba model 학습해본 사람은 누구나: optimal learning rate window 가 Transformer 보다 좁아. 2025 study 가 발견한 거 — recall-style probe 에서 Mamba accuracy 가 꽤 빡빡한 LR range 안에서 거의 0 에서 거의 optimal 로 점프. 잘못 고르면 학습 run 낭비. Initialization 선택이 더 중요. Schedule 모양이 더 중요. Hyperparameter 실수의 grace period 가 더 짧아.

Research lab 에는 OK — sweep 할 budget 있어. 학습 run 마다 진짜 돈 쓰는 production team 한테는 이 fragility 가 tax. 성숙한 Mamba recipe (NVIDIA 의 Nemotron training book, AI21 의 Jamba writeup) 가 도와주지만, "Mamba 는 까다로워" 는 "Transformer 는 까다로워" 가 더 이상 진실이 아닌 방식으로 2026 에도 여전히 진실이야.

Ecosystem 성숙도 gap

Hugging Face Transformers 는 Mamba 와 Mamba-2 를 native 지원, vLLM 은 day-1 Bamba 지원, Together AI stack 은 StripedHyena 운영. 근데 최적화 깊이는 Transformer 에 비할 수 없어. Quantization recipe 가 덜 battle-tested. Speculative decoding integration 이 더 거칠어. 커뮤니티 지식 — "아 그게 step 50K 의 loss spike, 여기 fix" — 이 더 천천히 쌓여. 이게 빠르게 변하지만, 2026 에는 의심 들 때 Transformer default 로 가는 single biggest 실용 이유야.

Exercise

"Achilles' Heel" 논문 의 abstract 와 recall-failure section 읽어. 본인 말로 동료한테 (또는 markdown 파일에 본인한테) "이 모델이 이 task 에 약해" 와 "이 모델이 어떤 scale 에서도 이 task 에 structurally incapable" 의 차이 설명. 후자가 논문이 associative recall 에서 pure SSM 에 대해 증명한 거고, 그 구분 내재화하는 게 이 quest 나머지의 hybrid 스토리를 말 되게 만들어.

Recall failure 는 structural — bug 아냐

학습 안정성이 Transformer 보다 좁아

Ecosystem 성숙도 gap

External links

Exercise

Progress

댓글 0