Architecture Evolution — v4 부터 v7

다섯 버전, 한 family

RWKV 는 빠르게 evolve 해. 각 버전이 새 codename 갖고, 각자 이전의 구체적 한계 fix.

v4 "Dove" (2023, EMNLP). 안정된 token-shift 메커니즘 establish — 모든 layer 가 현재 토큰을 이전 것과 mix, 명시적으로 attend 할 필요 없이 short-range context 에 implicit access 줌. v4 는 14B parameter scale 에서 학습된 첫 RWKV, architecture 가 신뢰 있게 scale 함을 입증.

v5 "Eagle" (2024, COLM). 큰 업그레이드: multi-headed 64×64 matrix-valued state. head 당 vector state 대신, 각 head 가 full matrix 유지. parameter 당 state 의 정보-운반 capacity dramatically expand. v5 가 Microsoft 가 ~15 억 Windows 머신에 ship 한 버전.

v6 "Finch" (2024). LoRA-based data-dependent token shift 추가, recurrence 를 dynamic 하게 — 현재와 이전 토큰 간 mixing weight 가 이제 input 마다 adapt 가능. 약 +5–7% benchmark 개선, content-aware adaptive recurrence 향한 첫 step.

v7 "Goose" (2025.3). 헤드라인 변화: full state evolution 의 generalized delta rule: S_t = S_{t-1} · (diag(w_t) + a_t^T · b_t) + v_t^T · k_t. 이게 효과적으로 recurrence 안 에서 prediction error 에 대한 gradient descent 수행 — 이전엔 명시적 attention 필요하다고 여겨진 in-context learning 의 한 형태.

여기서 버전 추적이 중요한 이유

RWKV 의 버전 cadence 는 진지한 architecture 치고 비정상적으로 빠르고, 차이가 커. v4 결과가 v6 에 transfer 안 되고, v6 결과가 v7 에 완전 transfer 안 돼. "RWKV 가 벤치마크 Y 에서 X 이김" 읽으면, 버전 체크. v7 결과가 current; 이전 버전은 대부분 historical.

Exercise

v4, v5, v7 architecture 문서 나란히 비교 (공식 RWKV docs 와 arXiv 논문 다 rwkv.com 에서 link). 버전 사이 정확히 뭐가 바뀌는지 메모: 어떤 weight 가 토큰 별 vs layer 별이 되나, state 모양이 뭐고, 어떤 새 gate 추가. 핵심은 "RWKV" 가 single architecture 보다 family 에 더 가깝고, 최신 버전 엔지니어링이 옛 블로그에서 찾을 v4 와 의미 있게 다르다는 걸 이해하는 거.

Architecture Evolution — v4 부터 v7

다섯 버전, 한 family

여기서 버전 추적이 중요한 이유

External links

Exercise

Progress

댓글 0