Dual-form 트릭, 다시 — 근데 다르게
RWKV (Receptance Weighted Key Value, RwaKuv 로 발음) 는 처음부터 한 목표로 구상된 linear-attention/RNN hybrid: Transformer 처럼 parallel 학습, 추론 때 RNN 으로 실행. SSM 도 비슷한 duality 가 있지만, RWKV 는 attention 에 구조적으로 더 가까워 — parameter 명명 (R, W, K, V) 이 우연 아냐; attention 의 QKV 의 의도적 echo.
네 parameter: R 은 receptance gate (이 토큰이 running summary 를 얼마나 흡수해야 해?), W 는 exponential decay weight (오래된 토큰이 얼마나 빨리 fade?), K 는 key (내가 뭘 가지고 있어?), V 는 value (내가 뭘 출력해?). WKV 메커니즘이 시간에 걸쳐 exponential decay 와 함께 weighted key-value sum 계산 — T×T matrix 절대 materialize 안 해.
왜 SSM 과 다른 sales pitch 인가
SSM 은 control-theory frame 에서 efficiency 팔아 — "history 를 state 로 압축". RWKV 는 attention-frame 에서 같은 efficiency 팔아 — "exponentially decay 하는 recurrent state 로 attention 을 근사". 수학은 인접하게 나오고 (SSD framework 가 결국 관련 있음 보여줌), 엔지니어링과 ergonomic 스토리는 달라. RWKV 모델은 Transformer-shaped checkpoint 처럼 보이고, llama.cpp/MLX/ggml-style stack 에 더 쉽게 port 가능하고, "이 state stable 한가" 걱정 없이 RNN 으로 실행.
토큰 당 constant time 보장
RWKV 가 사주는 거 중 다른 건 그렇게 깔끔한 형태로 안 사주는 거: 구성에 의해 추론 시 토큰 당 constant cost. 모델이 fixed-size state 인 RNN 과 provably equivalent, 그래서 generation latency 가 context length 에 flat. 이게 on-device serving 케이스에 RWKV 를 옳은 선택으로 만드는 거 — 토큰 N+1 생성 cost 가 토큰 1 이든 토큰 100,000 이든 같아.