실용 frontier
Pure-SSM 과 pure-RWKV 모델 여전히 niche. 2025–2026 의 가장 영향력 있는 post-Transformer 디자인이 hybrid — attention layer 일부가 SSM 또는 recurrent layer 로 교체된 Transformer. Attention 강점이 가장 중요한 곳 유지하면서 효율 gain 대부분 받아.
7:1 to 10:1 비율
여러 독립 research 그룹 (NVIDIA, IBM, AI21, Mistral) 이 비슷한 finding 에 수렴: 대략 attention layer 당 7:1 to 10:1 efficient layer 가 quality 손실 minimal 로 speedup 대부분 줘. 최근 architecture research 에서 더 striking 한 수렴 중 하나.
주목할 hybrid 패밀리
- Jamba (AI21). Mamba + Transformer hybrid, MoE 갖춘 52B variant 포함. 첫 frontier-scale hybrid 중 하나.
- Nemotron-H (NVIDIA). 8B, 56B hybrid variant, 비슷한 quality 의 pure Transformer 대비 ~3× speedup 달성.
- IBM Granite 4.0. Long context 위해 ~70% 메모리 감소 target 한 hybrid architecture.
- Falcon H1R (TII). 일부 attention layer 가 RWKV-style layer 로 교체된 hybrid.
왜 hybrid 작동
대부분 attention 계산이 "낭비" — 많은 attention head 가 mostly locally attend, 더 cheap layer 가 할 수 있는 일. 그런 layer 를 SSM 또는 recurrent variant 로 교체가 compute 절약. Full global attention 진짜 혜택 보는 소수 attention layer 가 보존 가능. 결과 비대칭: 도움 되는 거 유지, 안 되는 거 교체.
Hybrid 가 여전히 deliver 못 하는 것
- 진짜 massive frontier scale. 가장 큰 hybrid 모델 (Jamba 52B, Nemotron-H 56B) 이 여전히 trillion-parameter MoE frontier 한참 미만.
- Fine-tuning 의 drop-in 대체. 대부분 fine-tuning tooling 이 dense/MoE-Transformer-shaped. Hybrid fine-tuning 가능하지만 ecosystem 더 thin.
Hybrid 의 읽기 룰
Hybrid 가 보통 발표에서 명확히 marked ("Mamba-Transformer hybrid", "SSM-attention hybrid", explicit ratio). 모델이 hybrid 면 발표가 말해줘. 못 알아채면 hybrid 아닐 가능성.