TC⁰ 돌파

벤치마크 승리가 아니라 formal expressivity 결과

표준 Transformer 는 2023 결과로 TC⁰ complexity class 에 bounded — polynomial size 의 constant-depth threshold circuit 으로 표현 가능한 문제만 풀 수 있어. TC⁰ 밖에 strictly 있는 언어와 computational problem 이 있고, vanilla Transformer 는 얼마나 크게 만들든 provably 못 풀어.

RWKV-7 의 헤드라인 formal 결과: RWKV-7 가 provably TC⁰ 초과. 구체적으로, S5 state-tracking problem 을 단 2 layer 로 풀 수 있고 (NC¹ complexity — TC⁰ 보다 strictly 더 expressive 한 logarithmic depth circuit), 4 layer 로 모든 regular language 인식 가능. 이게 Transformer 가 어떤 size 에서도 structurally 못 하는 구체적 computational problem 들.

실전에 어떻게 나타나나

TC⁰ 돌파는 벤치마크 트릭 아냐; 진짜 capability difference 예측. RWKV-7 은 Transformer 가 struggle 하는 더 풍부한 sequential state — count, parity, regular-language 구조 — 유지. RWKV-7 2.9B 가 표준 벤치마크에서 72.8 평균 달성, Qwen2.5-3B (71.4) 와 매치, Llama 3.2 3B (69.7) 이김 — 그 경쟁자들 15–18T 토큰 학습 대비 단 5.6T 토큰 학습.

그 학습-토큰-효율 스토리가 중요해. RWKV 가 학습 데이터 1/3 로 Transformer-comparable 벤치마크 hit 하면, architecture 가 Transformer 가 안 하는 뭔가 하는 거야 — 아마 더 풍부한 state dynamics 가 example 마다 더 빠르게 학습하게. 이게 "RWKV 가 그냥 다른 수학 가진 Transformer 가 아니다" 의 가장 명확한 data point 중 하나.

솔직한 caveat

TC⁰ 돌파는 state-tracking 문제에 대한 거. 일반 expressivity advantage 아냐. Transformer 는 full context 에 대한 parallel associative lookup 에 탁월 — 다른 axis, 그 위에서 RWKV (모든 recurrent-state architecture 처럼) 가 양보. 여기 lesson 은 "RWKV 가 Transformer 보다 나아" 가 아니라 — "다른 architecture 가 다른 complexity class 에 살고, 그 선택이 사람들 인정하는 것보다 더 중요하다" 야.

Exercise

TC⁰-hard 인 작은 computational task 가져와 (예: 수백까지 n 의 a^n b^n 언어 인식, 또는 nested parenthesis 수 세기). Synthetic 학습 데이터 생성, 작은 Transformer (≤10M param) 와 비슷한 size RWKV-7 학습, gap 관찰. Transformer 는 plateau; RWKV-7 은 깔끔하게 generalize 해야. 이게 TC⁰ 돌파, 네 학습 run 에서.

벤치마크 승리가 아니라 formal expressivity 결과

실전에 어떻게 나타나나

솔직한 caveat

External links

Exercise

Progress

댓글 0