Field 가 공존으로 수렴
여기까지 읽었으면, 그림이 명확해야: 어떤 architecture 도 깨끗한 싸움 이기는 거 아냐. Pure Transformer 는 frontier reasoning 과 few-shot ICL dominate. Hybrid 가 production long-context serving dominate. Pure SSM 이 극도 메모리-제약 또는 streaming 워크로드에서 이김. Hyena 가 genomics 이김. RWKV 가 on-device 이김. Linear attention 이 Kimi Linear-class quality 수용 가능한 long-context summarization 이김.
2026 풍경은 Transformer-vs-alternative 아냐. Architecture 의 portfolio, 각자 자기 niche 에 best. 성숙한 엔지니어링 질문은 더 이상 "어떤 architecture 사용해야 해?" 가 아냐 — "다른 워크로드 class 를 옳은 architecture 로 어떻게 route?" 야.
MIRAS — 이론적 통합
MIRAS framework (Google, 2025.12) 가 이 quest 의 모든 architecture 를 single underlying primitive 의 variant 로 이론적 통합 제공: associative memory. Transformer, SSM, RWKV, RetNet, Hyena, linear attention — 다 다른 memory operator, key-value 구조, update dynamics 선택 가진 MIRAS framework member.
MIRAS view 가 academic 이상. 모든 sequence 모델이 associative memory variant 면, 그것들 "hybridize" 하는 게 다른 layer 에서 다른 MIRAS configuration 고르는 것뿐. "attention" 과 "recurrence" 사이 구분이 결국 associative-memory 선택으로 parameterize 된 single 디자인 공간으로 dissolve 할 수 있어. 그 conceptual collapse 의 초기지만, framework 가 research 팀이 자기 architecture 묘사하는 방식 영향 시작.
2026–2027 watch 할 거
- Kimi Linear scaling. Moonshot 결과가 frontier scale 에서 replicate 하나? 그러면 mainstream Transformer-shape 모델에서도 full attention 이 displace 될 수 있어.
- Hardware-specific SSM/hybrid 칩. Google Ironwood 와 AWS Trainium3 가 parallel scan 과 SSM 워크로드 위해 최적화 시작. Hardware-software co-design loop 닫히는 중.
- Hybrid 로 Transformer distillation. Cartesia 의 Llamba-8B (Llama 3.1 8B 를 Mamba 로 distill 해서 12× throughput) 가 hybrid frontier 모델로 가는 가장 빠른 길이 Transformer 로 시작해서 변환하는 것일 수 있다고 hint.
- Multi-scale operator. StripedHyena 2 의 SE/MR/LI 패턴이 일반 목적 hybrid 로 다시 흡수 가능.
버려야 할 myth: "Transformer 는 obsolete." Reality: Transformer 가 dominate 하고 몇 년간 그럴 거. Alternative 가 quadratic scaling 이 비실용적인 specific bottleneck 풀어. Field 는 도구 set 확장에 대한 거지, 망치 교체에 대한 거 아냐.