Retention 의 domain reach 의 broad 함
RetNet 이 frontier LLM 으로 ship 안 했지만 2024–2025 에 놀랍게도 broad 한 domain-specific application set 을 spawn 했어. Retention primitive 가 처음에 누구도 예측 안 한 곳에서 유용한 것으로 판명:
- Vision: RMT, RetViT, SegRet — attention-based 와 competitive 한 retention-based vision transformer.
- Audio: end-to-end speaker diarization 위한 RetNet-EEND; 일부 음악-생성 작업.
- Scientific computing: 입자 물리학 위한 JetRetNet, EEG decoding 작업, genomics 의 haplotype assembly.
- Time-series: LeRet 와 다른 retention-based forecasting 모델.
Domain 전반 retention application 의 첫 종합 survey 가 2025.6 (arXiv:2506.06708) 발표. Breadth 가 exponential-decay-based retention 이 어떤 temporally-structured signal 에도 유용한 inductive bias 임을 신호 — 언어만이 아니라.
왜 주요 LLM provider 가 안 ship 했나
이 breadth 에도 불구하고, 주요 frontier LLM provider 어느 곳도 RetNet-based product 를 ship 안 함. Anthropic, OpenAI, Google, Meta, Mistral — 누구도 retention-based flagship 없어. 왜?
가장 솔직한 답: RetNet 의 아이디어 성숙할 때 (2024) field 가 이미 Mamba-style selectivity 로 움직이고 있었어. Mamba 의 input-dependent gating 이 retention 의 fixed decay 의 strict superset (Mamba 에서 γ 를 constant 로 만들면 RetNet 회복), Mamba 가 GPU-friendly kernel 더 일찍 가용. RetNet 이 같은 일을 약간 더 잘하는 밀접하게 관련된 architecture 한테 out-shipped.
Domain 패턴
RetNet 이 성공한 곳은 데이터가 잘 이해된 temporal structure 가지고 정확한 recall 이 critical 안 한 워크로드. Vision (spatial structure 가 temporal 대체), audio (signal 이 진짜 fading), scientific data (noise model 잘 이해됨). 일반 목적 language modeling 에는 retention 이 out-competed. Domain-specific 작업에는 niche 발견.