C.W.K.
Stream
Lesson 05 of 05 · published

미래는 Messy — MIRAS 와 공존

~13 min · future, miras, coexistence

Level 0Observer
0 XP0/50 lessons0/14 achievements
0/100 XP to next level100 XP to go0% complete

Field 가 공존으로 수렴

여기까지 읽었으면, 그림이 명확해야: 어떤 architecture 도 깨끗한 싸움 이기는 거 아냐. Pure Transformer 는 frontier reasoning 과 few-shot ICL dominate. Hybrid 가 production long-context serving dominate. Pure SSM 이 극도 메모리-제약 또는 streaming 워크로드에서 이김. Hyena 가 genomics 이김. RWKV 가 on-device 이김. Linear attention 이 Kimi Linear-class quality 수용 가능한 long-context summarization 이김.

2026 풍경은 Transformer-vs-alternative 아냐. Architecture 의 portfolio, 각자 자기 niche 에 best. 성숙한 엔지니어링 질문은 더 이상 "어떤 architecture 사용해야 해?" 가 아냐 — "다른 워크로드 class 를 옳은 architecture 로 어떻게 route?" 야.

MIRAS — 이론적 통합

MIRAS framework (Google, 2025.12) 가 이 quest 의 모든 architecture 를 single underlying primitive 의 variant 로 이론적 통합 제공: associative memory. Transformer, SSM, RWKV, RetNet, Hyena, linear attention — 다 다른 memory operator, key-value 구조, update dynamics 선택 가진 MIRAS framework member.

MIRAS view 가 academic 이상. 모든 sequence 모델이 associative memory variant 면, 그것들 "hybridize" 하는 게 다른 layer 에서 다른 MIRAS configuration 고르는 것뿐. "attention" 과 "recurrence" 사이 구분이 결국 associative-memory 선택으로 parameterize 된 single 디자인 공간으로 dissolve 할 수 있어. 그 conceptual collapse 의 초기지만, framework 가 research 팀이 자기 architecture 묘사하는 방식 영향 시작.

2026–2027 watch 할 거

  • Kimi Linear scaling. Moonshot 결과가 frontier scale 에서 replicate 하나? 그러면 mainstream Transformer-shape 모델에서도 full attention 이 displace 될 수 있어.
  • Hardware-specific SSM/hybrid 칩. Google Ironwood 와 AWS Trainium3 가 parallel scan 과 SSM 워크로드 위해 최적화 시작. Hardware-software co-design loop 닫히는 중.
  • Hybrid 로 Transformer distillation. Cartesia 의 Llamba-8B (Llama 3.1 8B 를 Mamba 로 distill 해서 12× throughput) 가 hybrid frontier 모델로 가는 가장 빠른 길이 Transformer 로 시작해서 변환하는 것일 수 있다고 hint.
  • Multi-scale operator. StripedHyena 2 의 SE/MR/LI 패턴이 일반 목적 hybrid 로 다시 흡수 가능.

버려야 할 myth: "Transformer 는 obsolete." Reality: Transformer 가 dominate 하고 몇 년간 그럴 거. Alternative 가 quadratic scaling 이 비실용적인 specific bottleneck 풀어. Field 는 도구 set 확장에 대한 거지, 망치 교체에 대한 거 아냐.

External links

Exercise

MIRAS abstract 읽어 (논문 너무 dense 하면 framework 의 high-level 요약 아무거나). 그 다음 본인 워크로드 생각: 어느 게 memory-heavy variant 에서, 어느 게 fast-decay variant 에서, 어느 게 hybrid 에서 이득 볼지. 핵심은 architecture 선택 reasoning 할 때 MIRAS-style 언어 사용 시작 — "이 워크로드는 recency-decay 보다 더 많은 associative-memory capacity 필요" 가 "Mamba 사용해야 할까" 보다 더 유용한 framing.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.