SSM/hybrid 가 명확히 이기는 case
SSM / hybrid architecture 가 추적 가치 — 그리고 가능하면 채택 — 있을 때, 이 조건 중 하나 가질 때:
- 제한된 hardware 에서 128K–1M+ 토큰 context 필요. SSM 이 24GB GPU 에서 220K+ 토큰 처리 vs pure Transformer 의 ~25K. 워크로드가 long context 필요하고 serving budget 빡빡하면, alternative 가 명확히 compelling 한 regime.
- 추론 throughput 이 binding constraint. Long context 에서 3–8× speedup 이 진짜고 발표된 배포 전반 일관. Long context 에서 memory-bandwidth-bound 또는 throughput-bound (quality-bound 아니고) 면, SSM/hybrid 가 자기 복잡도 벌어.
- 배포 위해 메모리 footprint 중요. 추론 시 토큰 당 constant 메모리가 자라는 KV-cache Transformer 가 aggressive caching 전략 없이 못 reach 하는 on-device, embedded, edge 배포 enable.
- Streaming 또는 real-time 추론 이 context 자라면서 warmup cost 없는 constant-state architecture 에서 이득.
Pure SSM 아닌 hybrid 로 시작
SSM family 에 베팅한다면, 가장 안전한 move 가 proven hybrid architecture: Jamba 1.5 Mini, NVIDIA Nemotron-H 8B, IBM Granite 4.0, 또는 Bamba-9B. SSM efficiency 이득 대부분 주면서 recall-heavy task 에서 Transformer-like quality 유지할 만큼의 attention layer 유지.
Pure SSM (Falcon Mamba 7B, Mamba-2.8B base) 이 흥미로운 research artifact 인데 production 위해 더 high-risk: 더 낮은 recall ceiling, fine-tune 하면 더 좁은 학습 안정성, 덜 mature 한 serving 스토리. Sparse-attention-bearing hybrid 도 비실용적인 메모리/compute 제약일 때만 reach.
2026 에 평가할 shortlist
- Jamba 1.5 Mini (12B) — friendly entry point, 256K context, 주요 cloud + Hugging Face open weight 가용.
- NVIDIA Nemotron-H 8B — open weight, vLLM 지원, 65K context 에서 Llama 3.1 70B 대비 ~3× 빠름.
- IBM Bamba-9B — day-0 vLLM integration, competitive quality-efficiency tradeoff.
- IBM Granite 4.0 (multiple size) — production-grade, 9:1 비율, ~70% RAM 감소.
- Cartesia Llamba-8B — Llama 3.1 8B 에서 distilled, 12× throughput; distillation 경로 useful 증명.