다섯 버전, 한 family
RWKV 는 빠르게 evolve 해. 각 버전이 새 codename 갖고, 각자 이전의 구체적 한계 fix.
v4 "Dove" (2023, EMNLP). 안정된 token-shift 메커니즘 establish — 모든 layer 가 현재 토큰을 이전 것과 mix, 명시적으로 attend 할 필요 없이 short-range context 에 implicit access 줌. v4 는 14B parameter scale 에서 학습된 첫 RWKV, architecture 가 신뢰 있게 scale 함을 입증.
v5 "Eagle" (2024, COLM). 큰 업그레이드: multi-headed 64×64 matrix-valued state. head 당 vector state 대신, 각 head 가 full matrix 유지. parameter 당 state 의 정보-운반 capacity dramatically expand. v5 가 Microsoft 가 ~15 억 Windows 머신에 ship 한 버전.
v6 "Finch" (2024). LoRA-based data-dependent token shift 추가, recurrence 를 dynamic 하게 — 현재와 이전 토큰 간 mixing weight 가 이제 input 마다 adapt 가능. 약 +5–7% benchmark 개선, content-aware adaptive recurrence 향한 첫 step.
v7 "Goose" (2025.3). 헤드라인 변화: full state evolution 의 generalized delta rule: S_t = S_{t-1} · (diag(w_t) + a_t^T · b_t) + v_t^T · k_t. 이게 효과적으로 recurrence 안 에서 prediction error 에 대한 gradient descent 수행 — 이전엔 명시적 attention 필요하다고 여겨진 in-context learning 의 한 형태.
여기서 버전 추적이 중요한 이유
RWKV 의 버전 cadence 는 진지한 architecture 치고 비정상적으로 빠르고, 차이가 커. v4 결과가 v6 에 transfer 안 되고, v6 결과가 v7 에 완전 transfer 안 돼. "RWKV 가 벤치마크 Y 에서 X 이김" 읽으면, 버전 체크. v7 결과가 current; 이전 버전은 대부분 historical.