RetNet 이 seed 한 것
RetNet 의 가장 중요한 legacy 는 자기 배포가 아냐 — 직접 RetNet 의 framework 에서 끌어온 후속:
Mamba-2 의 State Space Duality. SSD framework 가 retention 을 precursor 로 명시적으로 cite; SSD 가 formalize 하는 SSM 과 structured attention 사이의 duality 가 RetNet 의 parallel-vs-recurrent 동등성에 의해 구체적 형태로 처음 demonstrate.
Hawk 와 Griffin (Google, 2024). 둘 다 retention 의 generalization 인 exponential-decay-flavored gating 가진 recurrent operator 사용. Griffin (sliding window attention 과 hybrid) 이 Google 의 productionize 된 alternative architecture 중 하나.
Gated Linear Attention (GLA). Decay 가 input-dependent 가 되는 linear-attention variant family — 본질적으로 제약이 풀린 retention. GLA 가 RetNet 과 full Mamba-style selectivity 사이의 다리.
오늘날 status
RetNet 자체는 배포된 모델 family 가 아니라 enabling research concept 으로 가장 잘 이해돼. 아이디어들이 후속 architecture 에 흡수됐어. Alternative-architecture 공간에서 작업하는 builder 는 retention 을 RetNet 모델 절대 배포 안 하더라도 현재 풍경 형성한 foundational primitive 로 이해해야.
Broader lesson
때로 research 기여의 가장 큰 가치는 ship 한 모델 아니라 seed 한 아이디어에 있어. RetNet 이 가능한 거 demonstrate — 세 execution paradigm, recurrence-attention duality, multi-scale fixed decay — 그리고 field 가 그 demonstration 위에 build. 어떤 architecture 의 성공 measure 는 "이게 얼마나 widely 배포됐나" 가 아니라 "이게 사람들이 디자인 공간 생각하는 방식을 얼마나 바꿨나". 그 measure 로 RetNet 이 enormously 성공.