Kernelization 트릭
Attention computation softmax(Q·Kᵀ)·V 가 O(n²) 인 건 가운데 n×n matrix 때문. Performer (Choromanski et al., 2021) 와 더 broad 한 linear attention family 가 묻는 거: kernel function φ 로 softmax 교체해서 softmax(Q·Kᵀ) ≈ φ(Q)·φ(K)ᵀ 이 되게 하면?
그런 φ 있으면, φ(Q) · φ(K)ᵀ · V 를 φ(Q) · (φ(K)ᵀ · V) 로 다시 쓸 수 있어. 괄호화 중요: 오른쪽이 d×d matrix 먼저 계산 (cost O(n·d²)), φ(Q) 로 project (cost O(n·d²)). Total: O(n·d²). Sequence length 에 linear, model dimension 에 quadratic. 합리적 model dim 가진 long sequence 에 대해 huge win.
왜 dominate 안 했나
수학은 작동. 실용적 결과는 실망. Random feature map 이 softmax 근사하지만, long context 에서 근사가 더 나빠져 — softmax 를 충실히 근사하기 위해 필요한 φ 의 dimension 이 attention 분포의 entropy 따라 자라고, 많은 토큰에 대한 high-entropy 분포 (long context 가 산출하는 거) 가 근사 cost 를 폭발.
실제 벤치마크가 보여준 거 — speedup 이 가장 중요한 length 에서 Performer-style 모델이 표준 attention 대비 의미 있는 quality 잃음. 커뮤니티 결론: 정확한 attention quality 포기 어려워. 근사가 매우 좋아야지 안 그러면 절약하는 것보다 더 cost.
Lasting 기여
Performer 가 안 이겼지만, 다른 형태로 나중에 더 잘 작동한 conceptual framework establish: 영리한 factorization 통한 structured attention. Kimi Linear, MHLA, gated linear attention 다 이 아이디어에서 후손, 더 영리한 φ 선택과 원본 Performer 의 quality 이슈 극복하는 더 풍부한 state 메커니즘과 함께.